0
“在當(dāng)前的AI競賽中,不論是多模態(tài)還是基模廠商,一旦選定深耕賽道,其必然會走的道路便是設(shè)計極致適配自身業(yè)務(wù)的芯片底座?!?/strong>芯片專家方志講到。
站在通用芯片廠商的視角,GPU的設(shè)計初衷,是為適配多元業(yè)務(wù)場景。全面兼容的代價,是大量冗余的邏輯單元與高度復(fù)雜的通用硬件架構(gòu)。
為“泛用性”做出的架構(gòu)取舍,使得通用化設(shè)計面臨天然妥協(xié):計算陣列無法為特定AI任務(wù)做深度定制與極致調(diào)優(yōu),多芯片組網(wǎng)存在顯著的互聯(lián)通信開銷,每一項都直接影響整體效率。
對于效率的“不滿足”,讓云廠商開始自研芯片,擺脫英偉達(dá)的統(tǒng)治。
憑借場景與研發(fā)的閉環(huán)優(yōu)勢,云廠商通過真實業(yè)務(wù)負(fù)載與模型運行數(shù)據(jù),反向定義芯片設(shè)計,將AI高頻算子與核心計算邏輯直接固化為硬件電路,用硬件執(zhí)行取代高級語言代碼,從根源上砍掉冗余開銷,實現(xiàn)效率最大化。
TPU和Gemini是海外實踐樣版,PPU和Qwen則是國產(chǎn)標(biāo)桿方案。1月29日,平頭哥半導(dǎo)體公布PPU真身,“真武810E”高端AI芯片正式亮相。
雷峰網(wǎng)了解到,平頭哥早在2020年便秘密啟動了“真武810E”的研發(fā),并于2022年底、2023年初,完成了研發(fā)和場景驗證,在此期間,其研發(fā)和驗證幾乎始終處在“只對內(nèi)部開放”的狀態(tài)。
隨著真武810E正式亮相,阿里全棧自研的雙重閉環(huán)浮出水面。平頭哥實現(xiàn)了芯片從計算到存儲的覆蓋:從鎮(zhèn)岳510 SSD、倚天710 CPU到真武810E,底層算力芯片全面自研;而平頭哥、阿里云、通義實驗室的緊密耦合,形成“通云哥”黃金三角,搶占行業(yè)領(lǐng)先身位。
但雙重閉環(huán)只是起點,協(xié)同質(zhì)變才是核心。
芯片、云平臺與模型如何產(chǎn)生“1+1+1>3”的協(xié)同效應(yīng)?從底層硬件到上層應(yīng)用的全棧自研體系,又將如何重構(gòu)阿里的資本市場估值邏輯?
真武810E,懂AI云的芯片
“芯片廠商的業(yè)務(wù),云廠商都有能力覆蓋;而云廠商卻能夠依托自身海量業(yè)務(wù)場景,率先發(fā)現(xiàn)系統(tǒng)痛點并給出解決方案,因此在架構(gòu)創(chuàng)新上,頭部云廠商將始終走在行業(yè)前列?!?/strong>云行業(yè)專家張峰分析到。
當(dāng)下,MaaS 已然成為云廠商角逐的核心戰(zhàn)場,采用 “From cloud to chip”(從云到芯) 思路搭建自研算力基座,成為行業(yè)主流選擇。云廠商從自身業(yè)務(wù)場景出發(fā)定義芯片,讓最終解決方案天生具備大規(guī)模組網(wǎng)、集群調(diào)度、云上原生適配的先天優(yōu)勢。
真武810E的大內(nèi)存以及高速互聯(lián),都展現(xiàn)了阿里自研芯片的優(yōu)勢,其配備的96GB HBM2e高帶寬內(nèi)存,可承載千億參數(shù)大模型訓(xùn)推與長序列任務(wù),3D堆疊設(shè)計更讓功耗、散熱表現(xiàn)良好,實現(xiàn)高頻穩(wěn)定運行。
700GB/s片間互聯(lián)基于自研ICN鏈路與7個獨立ICN端口,集群加速比高、多卡擴(kuò)展靈活,帶寬超越A800,配合平頭哥自研互聯(lián)加速庫,實現(xiàn)多卡協(xié)同工作,從而高效支撐模型訓(xùn)推需求。
多卡互聯(lián)作為大模型時代高性能芯片的剛需,真武810E的PCIe 5.0×16接口帶來單向63GB/s、雙向128GB/s帶寬,是PCIe 4.0的2倍,能夠完美適配大模型海量數(shù)據(jù)吞吐,降低主卡間數(shù)據(jù)傳輸瓶頸。
功耗也日益成為高性能芯片繞不過的難題,真武810E的400W低功耗可實現(xiàn)更密集機(jī)柜部署,提高能效比,降低了數(shù)據(jù)中心運營成本與PUE,并通過冷板式液冷實現(xiàn)穩(wěn)定控溫。
從核心參數(shù)來看,真武810E的綜合性能達(dá)到國際領(lǐng)先水平。據(jù)媒體報道,真武 PPU 累計出貨量已達(dá)數(shù)十萬片,超過寒武紀(jì),在國產(chǎn) GPU 廠商中屬于第一梯隊。
這種領(lǐng)先優(yōu)勢,是“From cloud to chip” 路線的直接體現(xiàn)。依托芯片與業(yè)務(wù)場景的協(xié)同設(shè)計,真武810E從架構(gòu)層面就與阿里生態(tài)深度綁定,規(guī)避了芯片與云平臺跨架構(gòu)適配帶來的指令翻譯額外性能損耗,讓算力在最低損耗下釋放,成為“最懂”AI云的芯片。
雷峰網(wǎng)了解到,當(dāng)前推理算力需求已占據(jù)AI應(yīng)用企業(yè)70%的成本權(quán)重,在推理需求爆發(fā)的場景之下,算力好用的另一個重要體現(xiàn)是具備足夠的性價比。
真武810E通過搭載超大帶寬、高容量HBM2e內(nèi)存,打破內(nèi)存墻的限制,解決大模型推理場景下的內(nèi)存瓶頸與帶寬壓力,讓大規(guī)模、高性價比的商業(yè)化推理業(yè)務(wù)進(jìn)程加速。
完善的編譯器與算子優(yōu)化能力,支持從底層硬件到上層大模型的全鏈路調(diào)優(yōu)。開發(fā)者可針對實際業(yè)務(wù)場景,實現(xiàn)精細(xì)化算子適配與調(diào)度優(yōu)化,進(jìn)一步放大算力的效率優(yōu)勢。
綜合以上強(qiáng)大性能,真武810E此次亮相,阿里“芯片、云平臺、模型”AI全棧自研生態(tài)的最新版圖呈現(xiàn)在所有人眼前。這套閉環(huán)體系所構(gòu)筑的技術(shù)壁壘與商業(yè)價值,也讓阿里在全球 AI 算力競爭中的生態(tài)位優(yōu)勢愈發(fā)清晰。
業(yè)務(wù)架構(gòu)「雙閉環(huán)」,“co-design”讓阿里占據(jù)領(lǐng)先身位
“阿里正用極其清晰的戰(zhàn)略規(guī)劃,讓具備強(qiáng)耦合特性的架構(gòu)閉環(huán)集中爆發(fā),飛輪效應(yīng)正式奏效?!币晃恍袠I(yè)人士點評道。
真武810E的公開,讓平頭哥“存儲-計算”芯片閉環(huán)與阿里全棧AI生態(tài)閉環(huán)正式顯現(xiàn)。
平頭哥,構(gòu)建了“鎮(zhèn)岳510 SSD主控芯片+倚天710 CPU+真武810E”的協(xié)同閉環(huán),打造了性能領(lǐng)先的國產(chǎn)自研算力體系。
全棧自研方案的首要價值在于實現(xiàn)供應(yīng)鏈安全自主。以緩存場景為例,隨著Intel傲騰(Optane)逐步停產(chǎn),市場面臨核心緩存介質(zhì)供應(yīng)斷檔的難題。而依托平頭哥自研芯片組合,搭配PSLC NAND閃存,可實現(xiàn)傲騰產(chǎn)品的國產(chǎn)化平替,用通用NAND閃存替代專屬新型存儲介質(zhì),應(yīng)對供應(yīng)風(fēng)險與安全隱患。
另一項紅利,是硬件深度協(xié)同優(yōu)勢。
自研CPU可根據(jù)業(yè)務(wù)需求,靈活選用RISC?V、ARMv9等合適指令集,甚至采用自主架構(gòu);GPU、SSD主控的通信協(xié)議、數(shù)據(jù)通路與緩存策略,均可與CPU進(jìn)行統(tǒng)一設(shè)計與深度適配。一方面能夠縮短CPU與GPU間的PCIe傳輸延遲,優(yōu)化異構(gòu)算力調(diào)度效率,另一方面可讓SSD主控邏輯直接匹配CPU內(nèi)存控制器與IO調(diào)度策略,降低讀寫放大,顯著提升4K隨機(jī)讀寫性能。
在阿里全景架構(gòu)下,則實現(xiàn)了“平頭哥+阿里云+千問模型”黃金三角的閉環(huán)。
“以DeepSeek推出大型MoE模型為例,其本質(zhì)便是在云端集群場景下實現(xiàn)了極致的模型與硬件的co-design,以此最大化釋放算力性能,而阿里的全棧自研將是更‘激進(jìn)’的原生適配方案。”推理框架優(yōu)化專家張濤解析到。
黃金三角閉環(huán)直接帶來的是阿里原生的緊耦合協(xié)同架構(gòu),這與過去一段時間英偉達(dá)+甲骨文+OpenAI的組合引領(lǐng)生AI發(fā)展的方式不同,跨企業(yè)的協(xié)同會帶來效率的損失,阿里則是和近來引發(fā)廣泛關(guān)注的谷歌一樣,在企業(yè)內(nèi)部實現(xiàn)了三個環(huán)節(jié)的深度耦合。
底層算力層面,平頭哥在保證自研芯片高兼容性、廣場景覆蓋需求的前提下,團(tuán)隊可緊密貼合阿里云智算集群的網(wǎng)絡(luò)拓?fù)?、虛擬化架構(gòu)與調(diào)度策略,開展芯片架構(gòu)、IO通路、功耗控制等層面的定制化協(xié)同優(yōu)化。
雷峰網(wǎng)了解到,真武810E已經(jīng)在阿里云實現(xiàn)多個萬卡集群部署,這意味著阿里云為平頭哥系列芯片產(chǎn)品的規(guī)?;渴鹛峁┝祟I(lǐng)先一步的驗證平臺,能更高效地指導(dǎo)芯片產(chǎn)品的迭代與協(xié)同。
對通義大模型團(tuán)隊而言,在自研芯片與阿里云的雙重加持下,千問模型的訓(xùn)推效率實現(xiàn)了階梯式提升,能為企業(yè)客戶提供更穩(wěn)定、更高效、更低TCO的云端推理服務(wù)。
其中,真武810E芯片針對Qwen3等主流MoE架構(gòu)模型,完成了算子深度優(yōu)化、張量并行調(diào)度、顯存智能調(diào)度等專項適配,可高效支撐千億乃至萬億參數(shù)大模型的分布式訓(xùn)練與高并發(fā)推理,充分滿足千問系列在大規(guī)模計算場景下的性能需求。
對阿里云而言,在全球AI算力持續(xù)緊缺、算力成本高企、供應(yīng)不穩(wěn)定的行業(yè)背景下,自研芯片從供給側(cè)實現(xiàn)核心硬件自主可控,并降低了算力基礎(chǔ)設(shè)施的建設(shè)成本,還能為企業(yè)客戶提供更差異化的算力和模型服務(wù)選擇,進(jìn)一步提升阿里云的市場競爭力。
據(jù)悉,平頭哥PPU芯片總出貨量達(dá)數(shù)十萬片,超過寒武紀(jì),千問在中國企業(yè)級大模型調(diào)用市場中位居第一、阿里云季度營收達(dá)398.24億元,同比增長34%。
全景視角下,阿里已具備對標(biāo)“英偉達(dá)+甲骨文+OpenAI”組合的生態(tài)化能力,在全球AI競爭中處于領(lǐng)先身位,這也重構(gòu)了阿里的估值邏輯。
“通云哥”浮出水面,「AI工廠」重構(gòu)阿里估值邏輯
長期以來,資本市場對阿里的認(rèn)知,一直被“電商平臺”、“互聯(lián)網(wǎng)巨頭”等標(biāo)簽所固化。這種單一化的刻板印象,簡化了對其價值的分析框架,也容易因忽視公司內(nèi)部正在發(fā)生的深度業(yè)務(wù)變革,造成投資判斷上的偏差。
一個不容忽視的事實是:當(dāng)行業(yè)內(nèi)多數(shù)企業(yè)還在探索AI布局路徑時,阿里已憑借一系列前瞻性決策與精準(zhǔn)卡位,完成全棧AI能力的構(gòu)建,躋身全球頂級科技企業(yè)行列。
在全球科技巨頭的共識中,成為“AI工廠”就意味著掌握AI時代的“水電煤”。但設(shè)想與現(xiàn)實,存在巨大的落地鴻溝,阿里生態(tài)的閉環(huán),絕非一日之功。
2018年,當(dāng)絕大多數(shù)企業(yè)還沉浸在互聯(lián)網(wǎng)業(yè)務(wù)紅利時,阿里便已開啟了其面向AI的戰(zhàn)略布局:當(dāng)年4月,阿里出手全資收購中天微;9月,整合中天微與達(dá)摩院芯片團(tuán)隊,平頭哥半導(dǎo)體應(yīng)運而生,業(yè)務(wù)布局前瞻性全面領(lǐng)先于當(dāng)前備受關(guān)注的國產(chǎn)GPU四小龍。
大規(guī)模的芯片研發(fā)投入之下,阿里云不是只顧短期收益,投入大量資金研發(fā)HPN 7.0智算集群網(wǎng)絡(luò)架構(gòu),成為SIGCOMM歷史上首個AI智算集群網(wǎng)絡(luò)架構(gòu)成果,支撐通義千問2.5版本中文性能成為世界頂尖模型。
2019 年,通義實驗室正式啟動大模型研發(fā),阿里AI生態(tài)的“軟件攻堅”帷幕正式拉開。2021年,全球首個十萬億級參數(shù)大模型M6成功落地,如今,通義實驗室發(fā)布的千問大模型家族,已然躋身全球第一梯隊開源模型。
技術(shù)的深度,并非困在“自嗨式”的研發(fā)閉環(huán)里。
資深芯片專家徐東向雷峰網(wǎng)(公眾號:雷峰網(wǎng))講述真武810E時,罕見地使用“好用”二字對一款國產(chǎn)芯片進(jìn)行評價。
雷峰網(wǎng)了解到,真武810E重點拓展大型車企及金融行業(yè)。
這是基于行業(yè)頂層視角的戰(zhàn)略研判?;ヂ?lián)網(wǎng)賽道外,車企已成為云業(yè)務(wù)需求最旺盛的核心群體,絕大多數(shù)車企選擇“上云”而非“建云”。
另一方面,車企對于AI訓(xùn)練的性能要求基本介于L20與H20之間的算力水平,而真武810E恰好精準(zhǔn)匹配這一市場痛點,成為車企算力采購中的優(yōu)選方案。
金融場景作為數(shù)據(jù)密集型行業(yè),對算力的核心訴求在于“安全可控、低時延、高穩(wěn)定”,同樣是國產(chǎn)芯片廠商打造“標(biāo)桿案例”的優(yōu)選領(lǐng)域。
雷峰網(wǎng)獲悉,廣西某銀行項目發(fā)布了數(shù)十臺算力服務(wù)器的招標(biāo)需求,基于產(chǎn)品性能及業(yè)務(wù)適配性,對投標(biāo)的國產(chǎn)芯片廠商進(jìn)行測試,多家頭部國產(chǎn)芯片廠商投標(biāo),最終真武810E脫穎而出。
“這個案例沒有任何水分,真武810E確實有很強(qiáng)的競爭力?!?/strong>一位全程參與項目實施的業(yè)內(nèi)人士直言。
依托完整的AI全棧技術(shù)體系,阿里相關(guān)解決方案已在多個行業(yè)實現(xiàn)規(guī)?;涞仳炞C:服務(wù)小鵬汽車、國家電網(wǎng)、中科院、新浪微博等400余家行業(yè)標(biāo)桿客戶。
從底層芯片研發(fā)到頂層場景應(yīng)用,阿里始終堅持長期主義,錨定技術(shù)可行、商業(yè)可用的核心方向做出關(guān)鍵決策。憑借硬核技術(shù)對標(biāo)能力與規(guī)?;涞爻尚?,其技術(shù)版圖與商業(yè)價值已形成清晰佐證。
“重估阿里”不是口號,而是對其技術(shù)價值的“理性回歸”。
注:文中方志、張峰、張濤、徐東皆為化名。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。