0
ISCA是與MICRO、HPCA并列的體系結構"三大頂會"之一,工業(yè)賽道論文錄用率常年低于20%。一篇論文能說明什么?在AI芯片行業(yè),學術發(fā)表往往是技術路線的"宣戰(zhàn)書"——它意味著理想不再滿足于做芯片的"使用者",而是要成為芯片架構的"定義者"。
但學術認可和商業(yè)成功之間,隔著一道深淵。馬赫100最引發(fā)爭議的問題只有一個:2560 TOPS的算力,到底有多少是真正能用的?
馬赫100最讓人困惑的一組數(shù)據(jù)是這樣的:單顆芯片的峰值算力是1280 TOPS,兩顆并聯(lián)2560 TOPS。而英偉達Thor-U單顆就能做到2000 TOPS——峰值算力上,馬赫100并不占優(yōu)。
但理想拋出了一個新概念:"有效算力"。按照理想的測算,在自研算法場景下,馬赫100單顆的有效算力是通用芯片方案的3倍,雙顆并聯(lián)達到5-6倍。換句話說,在理想自家的算法體系里,1280 TOPS的馬赫100跑出來的效果,可能等同于甚至超過2000 TOPS的英偉達芯片。
這個說法乍一聽像是"我跑分低但我游戲幀數(shù)高",但在技術層面并非沒有道理。
傳統(tǒng)車載智駕芯片沿用馮·諾依曼架構,數(shù)據(jù)需要從內存加載到緩存,再進入計算單元處理,處理完寫回緩存,再送入下一級。這個過程里,計算單元有大量時間在等數(shù)據(jù)搬運——就像一個工廠里,每個車間做完零件都得先放倉庫,下一個車間再去倉庫取,中間的等待時間全是浪費。馬赫100的數(shù)據(jù)流架構核心思路就是讓數(shù)據(jù)在計算單元之間"直接流動",省掉倉儲中轉的環(huán)節(jié)。
理想官方給出的數(shù)據(jù)是:相比通用芯片方案,馬赫100在理想自研算法上性能提升200%,功耗降低40%。200%的性能提升是一個令人印象深刻的數(shù)字,但關鍵問題在于——這是在什么條件下測出來的?使用的什么模型、什么輸入規(guī)模、什么功耗天花板?截至2026年4月,理想沒有公開完整的測試白皮書。這也是為什么業(yè)界對這組數(shù)據(jù)的態(tài)度從驚嘆轉向審慎:數(shù)字本身沒問題,但缺少第三方驗證的場景數(shù)據(jù),就像一個學生說自己的學習方法效率是別人的3倍——聽起來很厲害,但沒有統(tǒng)考成績佐證。
馬赫100選擇的技術路線,學術上叫"Orchestrated Dataflow Architecture"。這條路線不是理想首創(chuàng)——英國芯片公司Graphcore早在2016年就用數(shù)據(jù)流架構做AI加速器,但Graphcore在2022年被軟銀收購后逐漸淡出主流視野。將數(shù)據(jù)流架構落地到車規(guī)級芯片并推進到量產階段,理想是第一家。
這不是一個安全的選擇。數(shù)據(jù)流架構與傳統(tǒng)GPGPU架構之間存在三個根本性差異,每一個差異都意味著巨大的工程風險。
第一,去緩存設計。GPGPU依賴多級緩存(L1/L2/L3)來橋接計算單元和內存之間的速度差距,緩存訪問占據(jù)了芯片相當大的功耗和面積預算。數(shù)據(jù)流架構通過在計算單元之間建立直接數(shù)據(jù)通道來減少緩存依賴——邏輯上很優(yōu)雅,但工程上意味著整個芯片的物理設計、時序分析和功耗管理都要推倒重來。
第二,算法定義數(shù)據(jù)流。傳統(tǒng)芯片的硬件結構是固定的,算法要適配硬件;馬赫100反過來,讓編譯器根據(jù)算法的計算圖自動編排數(shù)據(jù)流動路徑。這種"以算法為中心"的設計要求芯片團隊和算法團隊深度耦合——理想CTO謝炎說過,"芯片團隊需要構建從底層硬件到上層算法的全棧能力"。這句話的潛臺詞是:馬赫100不是一顆通用芯片,它是一顆為理想自家算法量身定制的芯片。這在短期內是優(yōu)勢,長期看也可能是枷鎖。
第三,完全可編程。數(shù)據(jù)流架構不同于固定功能的ASIC——ASIC一旦流片就很難修改計算邏輯,而馬赫100保持了完全可編程的能力。這在AI算法快速迭代的當下是關鍵優(yōu)勢:三年前沒人預測到VLA模型會取代傳統(tǒng)感知-規(guī)劃-控制架構,三年后誰知道主流算法又會長什么樣??删幊绦砸馕吨R赫100有更大的"適應窗口",但代價是編譯器的復雜度大幅上升。
把馬赫100放進全球智駕芯片的坐標系,格局變得更有意思。
特斯拉AI5走的是最激進路線——3nm制程(推測),固定ASIC設計,算力高達約2500 TOPS,但不可編程,算法迭代需要重新流片。小鵬圖靈芯片5nm制程,單顆750 TOPS但三顆并聯(lián)達到2250 TOPS,已量產上車。蔚來神璣NX9031同樣5nm,但算力數(shù)據(jù)尚未公開,雙顆配置,預計2026年量產。英偉達Thor是" benchmark",5nm制程,單顆2000 TOPS,GPGPU架構,CUDA生態(tài)護城河無人能及。華為MDC 610制程略遜一籌(7nm),單顆400 TOPS在紙面上遠低于競品,但問界M9的智駕體驗依然處于行業(yè)第一梯隊——這是對"峰值算力不等于實際體驗"最有力的注解。
馬赫100在這個陣營里的位置很特殊:峰值算力不是最高的(單顆1280 TOPS),制程不是最先進的(5nm,僅次于特斯拉的3nm),但它是唯一采用數(shù)據(jù)流架構的,也是唯一在ISCA發(fā)表過架構設計論文的。這個獨特性既是差異化優(yōu)勢,也是風險來源——如果數(shù)據(jù)流架構的車載表現(xiàn)不及預期,馬赫100就只剩下"還不錯"的峰值算力,競爭力將大打折扣。
值得玩味的是車企自研芯片的量產時間線:英偉達Thor最早(2025年),特斯拉AI5和小鵬圖靈已經量產,理想馬赫100和蔚來神璣都瞄準2026年。這意味著馬赫100在交付時面對的不是一個空白市場,而是一個已經被對手教育過的市場——消費者和媒體已經有了對比基準,"理論優(yōu)勢"必須有"實測數(shù)據(jù)"來支撐。
一個經常被忽視的細節(jié)是功率預算。2560 TOPS的雙芯配置在5nm制程下的功耗是多少?理想沒有公開這個數(shù)字,但可以參考一個大致量級:英偉達Thor在5nm制程下功耗約為100W,2000 TOPS;如果馬赫100的數(shù)據(jù)流架構確實能降低40%功耗(理想官方數(shù)據(jù)),那么1280 TOPS單顆的功耗可能在40-50W左右,雙芯約80-100W。這個功耗水平在車載域控器的散熱方案中是可控的,但也意味著"有效算力3倍"的宣稱需要在嚴格的功耗約束下成立,否則就只是"跑滿功耗時更強"的另一種說法。
另一個維度是成本。兩顆馬赫100的BOM成本 vs 一顆英偉達Thor——這個數(shù)字理想不會公開,但行業(yè)常識是:自研芯片在初期量產階段的單顆成本通常高于采購成熟供應商的方案,因為流片費用、掩膜成本和良率爬坡都會推高均攤成本。馬赫100只有在大規(guī)模鋪貨后(理想全系車型搭載+可能的對外授權),才有機會把單顆成本壓到比采購Thor更低的水平。在此之前,自研芯片更像是一種"用利潤換戰(zhàn)略自主權"的投資。
馬赫100的算力承諾有一個前提條件:算法必須在馬赫100的編譯器上完成適配和優(yōu)化。這個前提條件,恰恰是整場賭局里最難的部分。
英偉達之所以在AI芯片領域一家獨大,CUDA平臺是真正的護城河。400萬開發(fā)者,近20年的軟件積累,PyTorch、TensorFlow、ONNX等主流框架的原生支持——算法工程師幾乎可以零成本地把模型部署到英偉達GPU上。換到馬赫100上,同樣的模型需要經過編譯器的轉換和優(yōu)化,適配數(shù)據(jù)流的計算拓撲,這個過程的復雜度和工程量遠超外界想象。
理想需要構建自己的"馬赫CUDA"。數(shù)據(jù)流架構的編譯器要完成兩項工作:把通用AI模型(如PyTorch訓練的Transformer或VLA模型)轉換為數(shù)據(jù)流計算圖,然后根據(jù)馬赫100的硬件拓撲優(yōu)化數(shù)據(jù)流動路徑。每換一種新的算法架構,編譯器可能都需要相應的適配。
這實際上是一個經典的"雞和蛋"問題:算法團隊需要編譯器成熟才能高效部署模型,編譯器團隊需要大量算法實踐才能打磨成熟度。理想內部是否有足夠的芯片架構和編譯器人才來同時推進這兩條線,是一個值得關注的變量。
理想選擇將架構設計論文發(fā)表到ISCA,可能不只是為了學術榮譽。在芯片架構和編譯器領域,頂尖人才高度集中在學術界和頭部科技公司。一篇ISCA論文是最好的招聘廣告——它向全球的體系結構研究者釋放了一個信號:理想有足夠深的技術積累,值得你來。
編譯器生態(tài)的另一個挑戰(zhàn)是第三方模型的適配。理想的VLA基座模型當然可以在馬赫100上做到最優(yōu),但智駕系統(tǒng)不僅需要自研模型,還需要調用大量開源模型和第三方工具鏈——比如BEV感知中的常見backbone、占用網(wǎng)絡的standard implementations、端到端規(guī)劃中的reference models。這些模型當初都是為英偉達GPU設計和優(yōu)化的,要在馬赫100上跑出同樣甚至更好的效果,編譯器的兼容性和優(yōu)化能力是關鍵瓶頸。
一個可能的解法是"混合架構"——用英偉達芯片處理通用AI任務(如座艙交互、第三方模型推理),用馬赫100專注處理理想自研的端到端智駕和VLA模型。這樣既保留了英偉達的生態(tài)優(yōu)勢,又發(fā)揮了馬赫100的架構優(yōu)勢。但這種方案會增加系統(tǒng)的復雜度和BOM成本,而且需要兩套并行的軟件開發(fā)工具鏈。理想是否在走這條路,目前沒有公開信息,但這是一個值得關注的工程方向。
如果只把馬赫100看作一顆智駕芯片,會低估理想的技術布局。
理想CTO謝炎的表述很明確:馬赫100不是單純的智駕芯片,而是一個通用的AI計算平臺。它需要支持的不僅是自動駕駛,還包括座艙AI交互、機器人運動控制,以及未來可能的家庭智能體。從這個角度看,數(shù)據(jù)流架構的選擇就有了更清晰的邏輯——不同場景的AI任務需要不同的計算模式,可編程的數(shù)據(jù)流架構比固定ASIC更能適應多場景需求。
更值得關注的是"算力復用"的可能性。理想投資斜躍智能布局家庭機器人,VLA大模型既能在車上驅動自動駕駛,也能在機器人上驅動運動控制。馬赫100如果同時服務于車和機器人兩個場景,每顆芯片的研發(fā)成本就可以在更大規(guī)模上攤薄——就像亞馬遜的AWS云服務,最初只是為了支撐自家的電商業(yè)務,后來卻成了公司最大的利潤來源之一。
但"算力復用"說起來容易做起來難。車和機器人的AI任務在幾個關鍵維度上存在差異:車需要處理高速運動場景(120km/h以上的感知和決策頻率),機器人需要處理精細操作場景(抓取、折疊等毫米級精度控制);車的工作環(huán)境相對結構化(道路、車道線、交通標志),機器人的工作環(huán)境高度非結構化(家庭廚房、客廳里的各種雜亂物體);車的安全要求由L1-L5的法規(guī)框架界定,機器人的安全要求目前還沒有統(tǒng)一的行業(yè)標準。這些差異意味著馬赫100需要在架構設計上留出足夠的彈性空間,才能同時適配兩個截然不同的應用場景。
按照理想的規(guī)劃,2027年將推出馬赫200芯片,算力目標突破3000 TOPS,支持L4級自動駕駛。從100到200的演進,核心不在于制程和算力的堆疊,而在于數(shù)據(jù)流架構的成熟度和編譯器生態(tài)的完善度。如果馬赫100在2026年的量產驗證中能兌現(xiàn)"有效算力"的承諾,馬赫200的推進就有了技術基礎;如果兌現(xiàn)不了,整個路線的可信度都會受到質疑。
一個值得思考的問題是:如果馬赫100的表現(xiàn)達到預期,理想是否會把芯片方案對外授權給其他車企?蔚來已經明確表示不會對外輸出神璣芯片,特斯拉更是封閉生態(tài)的典范。但理想在戰(zhàn)略上一直有"平臺化"思維——從增程技術到座艙系統(tǒng),理想傾向于把自研技術變成可以規(guī)?;钠脚_能力。如果馬赫100證明了數(shù)據(jù)流架構在車載場景下的優(yōu)勢,對外授權不僅能帶來直接收入,還能讓更多的算法團隊在馬赫平臺上開發(fā),加速編譯器生態(tài)的成熟。當然,這個遠景距離現(xiàn)在還遠,但方向是明確的。
馬赫100的故事里,藏著三個值得關注的行業(yè)信號。
第一,"有效算力"正在成為智駕芯片的新戰(zhàn)場。峰值算力的軍備競賽已經接近天花板——當單顆芯片的算力突破2000 TOPS,數(shù)字本身的震撼力在遞減。下一個競爭維度是"同樣峰值下,誰的效率更高",這恰好是數(shù)據(jù)流架構聲稱擅長的領域。無論馬赫100最終表現(xiàn)如何,"有效算力"這個概念已經被推到了行業(yè)討論的中心。
第二,車企正在從芯片的"使用者"變成"定義者"。在Mobileye和英偉達主導的時代,車企對芯片架構幾乎沒有話語權。如今特斯拉、小鵬、蔚來、理想四家都推出了自研芯片,芯片競爭正在從芯片公司之間的較量擴展到車企之間的較量。ISCA收錄理想論文的意義不僅在于學術榮譽,更在于它標志著車企自研芯片進入了"接受學術同行評審"的新階段。
第三,芯片正在成為車企AI戰(zhàn)略的"錨點"。理想All in AI的戰(zhàn)略轉向,需要一個強有力的技術抓手來落地。馬赫100就是這個抓手——它既服務于當前的自動駕駛和座艙AI,也連接著未來的具身智能和機器人業(yè)務。一顆芯片能不能同時承載這么多期待?2026年Q2,L9 Livis交付之時,答案將會揭曉。在那之前,馬赫100既是理想技術野心的展示窗口,也是一場關于"有效算力"的行業(yè)級實驗。
(雷峰網(wǎng)(公眾號:雷峰網(wǎng))新智駕北京車展2026專題)
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。