憑什么說自己領先特斯拉和華為？理想VLA研發(fā)復盤

本文作者：新智駕

2026-04-21 21:35

導語：當特斯拉通過海量數(shù)據(jù)力推純視覺端到端，華為堅守“感知-決策-控制”的模塊化路線時，理想自動駕駛交出了第四代答卷。

當AI不再"照抄"人類開車

2025年5月，理想在一場內部活動上展示了一段視頻。視頻中，一輛理想L9駛入一個從未到過的路口，前方是臨時搭建的施工區(qū)域，路面上沒有標線，兩側擺放著反光錐，一個工人正在指揮交通。車輛沒有慌張，減速后向左變道，繞過施工區(qū)域，重新匯入車流。

這段視頻之所以讓現(xiàn)場的工程師們興奮，不是因為變道本身——任何一臺搭載高階智駕的車都能做到。真正讓他們興奮的是這輛車變道的原因：它"理解"了施工區(qū)域的語義，而不僅僅是"檢測"到了反光錐的位置。

這就是VLA（Vision-Language-Action，視覺-語言-動作）和傳統(tǒng)端到端的根本區(qū)別。傳統(tǒng)端到端的做法是"行為克隆"——用海量人類駕駛數(shù)據(jù)訓練模型，讓AI照搬人類的操作?？吹椒垂忮F就剎車，看到標線就跟隨，這本質上是一種高級的模仿。VLA的做法是讓AI先"理解"場景，再通過推理做出決策。它不是一個被動的復制者，而是一個主動的思考者。

兩者的差距在Corner Case中會被無限放大。傳統(tǒng)端到端模型面對從未見過的場景時，要么"亂來"——做出明顯錯誤的決策，要么"罷工"——退出智駕把控制權交給人類。因為它的決策依據(jù)是"歷史數(shù)據(jù)中有沒有見過類似的"，沒見過就沒有答案。VLA模型面對同樣場景時，會先在內部完成一輪語義推理："前方有施工區(qū)域→有工人在指揮→通行空間變窄→需要減速并尋找安全的繞行路線→左側車道空曠→執(zhí)行左變道"。這個推理鏈條雖然不一定每次都對，但至少提供了一種超越"經(jīng)驗匹配"的決策機制。

2026年3月，理想自動駕駛基座模型負責人詹錕在NVIDIA GTC 2026上發(fā)布了下一代模型MindVLA-o1，把這個理念推到了新高度。訓練成本降低約75%，引入預測式隱世界模型，原生多模態(tài)MoE架構——這些技術術語背后的核心敘事是：理想正在把自動駕駛從"參數(shù)競賽"拉入"認知競賽"。

理想智駕的四年進化史

VLA不是憑空冒出來的，它是理想在自動駕駛技術路線上持續(xù)迭代的第四代產(chǎn)物。

回看這四年，理想的智駕路線走了一個清晰的"由淺入深"的路徑。2023年及之前，理想的主力是NPN先驗網(wǎng)絡，核心任務是在已建圖的城市中建立穩(wěn)定的感知能力。這個階段的技術底子是高精地圖——車知道自己的精確位置，也知道周圍的精確路況，導航更像是在執(zhí)行一條預設好的軌道。這個方案在高速和快速路上表現(xiàn)良好，但在城市復雜路口、臨時施工區(qū)域等高變化場景中就捉襟見肘了。

2024年，理想開始推進"無圖化"——擺脫對高精地圖的依賴，用車載傳感器實時感知環(huán)境。這個轉變的代價是研發(fā)投入的激增，但收益是場景覆蓋能力的質變：不再受限于地圖覆蓋范圍，理論上"車能開到哪里，智駕就能用到哪里"。2024年底，理想無圖NOA在全國361個城市落地，覆蓋了絕大多數(shù)城市道路。

2025年初，端到端+VLM的方案接棒。VLM（視覺語言模型）的引入是一個轉折點——它讓智駕系統(tǒng)第一次有了"語義理解"的能力，不再只是處理像素和點云，而是能理解"前方有交警在指揮交通""這里是學校區(qū)域""右側車道在施工"這類需要語言推理的場景。

2025年5月至今，VLA司機大模型成為主軸。它在VLM的基礎上進一步打通了"理解"到"行動"的鏈路——不僅理解場景，還直接生成駕駛動作序列。用戶通過VLA指令與智駕系統(tǒng)自然語言交互，比如"跟著前車走""變到左側車道"，系統(tǒng)理解語義后直接執(zhí)行。這個交互方式的改變讓用戶對智駕的信任感大幅提升——月使用率從端到端時期的不足50%躍升至80%，全年VLA指令累計使用超過1225萬次。

這四步走的每一步都不是顛覆式的，而是在前一步的基礎上疊加新能力。但四步疊加之后，理想智駕系統(tǒng)的"能力模型"已經(jīng)發(fā)生了質變——從"在高精地圖上跑"到"實時感知世界"再到"理解世界語義"最后到"像人一樣思考和決策"。每一步的幅度不大，但方向從未改變。

四個模塊拼成的大腦

MindVLA-o1不是一個單獨的模型，而是一個由四個模塊組成的完整系統(tǒng)。理想的技術團隊把它描述為"AI閉環(huán)"——數(shù)據(jù)進入、模型訓練、仿真驗證、強化學習、再回到車端部署，每個環(huán)節(jié)都在為下一個環(huán)節(jié)提供更好的輸入。

第一個模塊是MindData，數(shù)據(jù)引擎。 數(shù)據(jù)是VLA的燃料，而理想在數(shù)據(jù)方面的積累正在加速。2025年春節(jié)期間輔助駕駛總里程達2.5億公里，VLA指令使用130.3萬次。全年累計VLA指令使用1225.4萬次，月使用率達到80%。這些真實駕駛行為產(chǎn)生的數(shù)據(jù)，比任何仿真都更有價值——因為它們包含了人類駕駛員面對復雜場景時的真實決策邏輯。

但數(shù)據(jù)質量比數(shù)量更重要。理想沒有公開詳細的數(shù)據(jù)清洗流程，但從行業(yè)經(jīng)驗看，VLA模型需要的是"有信息量的數(shù)據(jù)"——高速公路上300公里的勻速巡航對模型訓練幾乎沒有幫助，而一個包含突然變道、行人橫穿、施工繞行的5分鐘城市通勤片段，可能抵得上300公里的高速數(shù)據(jù)。如何從海量原始數(shù)據(jù)中高效地篩選出"有信息量"的片段，是數(shù)據(jù)引擎的核心能力。

第二個模塊是MindVLA-o1本身，核心模型。 它的技術架構圍繞五個維度展開。感知層用3D ViT Encoder作為"眼睛"，激光雷達的點云數(shù)據(jù)作為三維幾何的提示信號，讓模型既能"看到"圖像又能"理解"空間關系。思考層在傳統(tǒng)語言模型的基礎上引入了"預測式隱世界模型"——這個概念可以理解為AI的"預演系統(tǒng)"。就像人類駕駛員變道之前會下意識判斷旁邊車輛的速度和距離一樣，VLA會在隱空間中模擬未來多種可能性，選擇最優(yōu)的行動方案。

執(zhí)行層的技術細節(jié)更值得深挖。傳統(tǒng)端到端模型是逐點生成軌跡，速度慢且容易累積誤差。MindVLA-o1采用了VLA-MoE架構，引入專門的Action Expert模塊，可以同時并行解碼所有軌跡點，再通過離散擴散進行多輪迭代優(yōu)化。如果說傳統(tǒng)端到端是"一步一步算"，那MoE架構就是"同時算好幾步，再選最好的一條"。

進化層和部署層是支撐長期競爭力的關鍵。閉環(huán)強化學習配合前饋式場景重建，能夠在虛擬環(huán)境中瞬時生成大規(guī)模高保真場景用于訓練——理想宣稱整體訓練成本降低約75%，這在算力價格仍然高企的當下是一個非常重要的效率指標。部署層提出的"軟硬件協(xié)同設計定律"則針對端側部署的痛點：先建模芯片硬件的算力限制，再反向約束模型結構設計，避免"模型能跑但芯片扛不住"的錯配。

第三個模塊是MindSim，世界模型。 它的用途是在虛擬環(huán)境中生成極端場景——連環(huán)事故、突然竄出的行人、暴雨中的高速變道——讓模型在沒有真實數(shù)據(jù)的情況下也能學習應對。這類場景在現(xiàn)實中發(fā)生概率極低，但一旦發(fā)生，模型的應對能力直接關系到生命安全。世界模型的意義在于把"靠運氣積累的極端場景經(jīng)驗"變成"靠算力批量生成的訓練數(shù)據(jù)"。

第四個模塊是RL Infra，強化學習基礎設施。 這是VLA區(qū)別于傳統(tǒng)端到端的關鍵所在。行為克隆只能讓模型"學會人類已有的操作"，強化學習能讓模型"探索人類沒試過但可能更好的操作"。兩者的區(qū)別，好比一個是跟著師傅學炒菜，一個是自己反復試哪種火候和調料搭配最好吃。前者學得快但上限受限于師傅的水平，后者學得慢但有可能做出師傅都沒想到的新菜。

四個模塊協(xié)同運作，構成了理想的自動駕駛AI閉環(huán)。每個環(huán)節(jié)的輸出都是下一個環(huán)節(jié)的輸入，數(shù)據(jù)質量決定模型上限，模型能力決定仿真精度，仿真精度決定強化學習效率，強化學習的成果又反過來提升數(shù)據(jù)引擎的標注質量。這個飛輪一旦轉起來，速度會越來越快。

一場關于"怎么理解世界"的路線之爭

VLA不是理想的獨門秘技。特斯拉走純視覺端到端路線，華為走"感知-決策-控制"分模塊路線，小鵬也在2025年發(fā)布了XNGP 5.0的純視覺方案。每家都在探索最優(yōu)的技術路徑，但目前還沒有人能給出定論。

三條路線的本質分歧在于如何理解駕駛場景。

特斯拉的答案是"看多了就會"。FSD基于海量用戶數(shù)據(jù)的行為克隆，通過數(shù)據(jù)驅動的方式覆蓋盡可能多的場景。北美超過200萬活躍FSD用戶每天產(chǎn)生數(shù)百萬英里的駕駛數(shù)據(jù)，這些數(shù)據(jù)持續(xù)反哺模型訓練。優(yōu)勢是數(shù)據(jù)量最大、覆蓋場景最廣；劣勢是對從未見過的Corner Case缺乏推理能力，只能靠持續(xù)推送版本來修補。

華為的答案是"分而治之"。ADS將感知、決策、控制拆分為獨立模塊，每個模塊各司其職。優(yōu)勢是安全性和可解釋性強——出了問題能定位到具體模塊，監(jiān)管和審計也更容易通過；劣勢是模塊之間的信息傳遞會損失效率，難以實現(xiàn)真正的端到端優(yōu)化。

理想的答案是"先理解再行動"。VLA在視覺感知和動作輸出之間插入了一個"語言推理"層，讓模型先用自然語言描述場景、分析問題、規(guī)劃策略，再轉化為具體的駕駛動作。理論上，這種架構在面對需要語義推理的復雜場景時——比如理解交警手勢的含義、判斷前方施工區(qū)域的正確通行策略——應該比純視覺端到端和分模塊方案都更有優(yōu)勢。

但理論和現(xiàn)實之間總有一段距離。郎咸朋在2026年初曾表示，OTA 8.2后的VLA"非常確認是行業(yè)領先"。在北京、上海、深圳、杭州累計實測上千公里后，理想預計到2026年底系統(tǒng)MPI（平均接管里程）將突破1000公里。作為參照，華為ADS 3.0的MPI在部分城市已超過2000公里，特斯拉FSD V13在北美也達到了類似水平。理想的VLA確實在快速追趕，但"領先"這個判斷能否經(jīng)得起第三方測試的驗證，還需要更多城市、更多用戶、更多極端場景的持續(xù)考驗。

安全冗余：生成式AI的天生矛盾

VLA路線面臨的最大挑戰(zhàn)不是技術不夠先進，而是一個看似矛盾的問題：生成式模型的核心特征是"不確定性輸出"，而自動駕駛的核心要求是"確定性安全"。

ChatGPT每次回答同一個問題，措辭可能不同，甚至可能出現(xiàn)幻覺——在聊天場景中這頂多是用戶體驗問題。但在駕駛場景中，面對同一個前方障礙物，模型這次的決策是"左變道"，下次的決策是"急剎車"，這種不確定性是不可接受的。

理想在MindVLA-o1中引入了兩層安全約束來解決這個矛盾。第一層是離散擴散機制——模型生成的軌跡不是一步到位的，而是經(jīng)過多輪迭代優(yōu)化，每輪都會檢查軌跡是否符合車輛動力學約束（比如最大轉向角、最大加速度）。不符合的軌跡會被修正或淘汰。第二層是外部安全規(guī)則層——在VLA的推理結果之上疊加一套硬編碼的安全規(guī)則，當模型輸出明顯違反安全規(guī)則的操作時，安全規(guī)則層會強制否決。

這兩層約束在工程上有效，但引入了一個新的問題：當安全規(guī)則頻繁否決VLA的輸出時，系統(tǒng)的"智能性"就被削弱了——用戶會感覺車輛在某些場景下"過于保守"，明明可以通行卻選擇停車等待。這種"安全性"和"智能性"的平衡，是所有生成式智駕方案都需要面對的工程難題。

更深層的問題是可解釋性。當傳統(tǒng)模塊化方案出錯時，工程師可以逐層回溯：是感知模塊把錐桶識別成了垃圾桶？還是決策模塊選擇了錯誤的變道策略？每個環(huán)節(jié)都有明確的輸入輸出，問題定位相對簡單。VLA方案的決策過程發(fā)生在一個巨大的神經(jīng)網(wǎng)絡內部，當輸出錯誤時，工程師很難精確判斷是哪個環(huán)節(jié)出了問題——是語義理解錯了？是推理鏈條斷了？還是執(zhí)行層翻譯有誤？這種"黑箱"特性在研發(fā)階段會增加調試成本，在事故調查中也會增加責任界定的難度。

從車到機器人：VLA的終局想象

如果只把VLA看作自動駕駛系統(tǒng)，那就低估了理想的野心。

在理想的技術敘事中，汽車被定義為"跑在路上的具身智能體"。MindVLA-o1的四大模塊——數(shù)據(jù)引擎、核心模型、世界模型、強化學習——構成的不是一個專用于駕駛的系統(tǒng)，而是一個通用的物理AI框架。這個框架的能力可以遷移到任何需要"感知環(huán)境-理解語義-執(zhí)行動作"的場景——包括家庭服務機器人、工業(yè)物流機器人、倉儲機器人。

2025年，理想投資了斜躍智能（由前理想高管創(chuàng)辦的家庭機器人公司），這正是VLA能力外溢的第一步。家庭場景和駕駛場景的復雜度完全不同——家庭環(huán)境是非結構化的、高度動態(tài)的、包含大量需要常識推理的任務——但核心的認知框架是相通的：感知環(huán)境、理解指令、規(guī)劃動作、安全執(zhí)行。

馬赫100芯片則提供了算力基座。5nm制程、單顆1280TOPS、雙顆2560TOPS，這樣的端側算力不僅足夠部署當前參數(shù)量的VLA模型，還為未來更大規(guī)模的模型留出了空間。當芯片+算法+數(shù)據(jù)三個要素齊備，理想就擁有了向"具身智能平臺"躍遷的技術底座。

但終局仍遠。VLA目前的月使用率80%、MPI目標1000公里，在用戶體驗層面距離"離不開"還有相當?shù)木嚯x。從"能用"到"好用"再到"不可或缺"，每一步跨越都需要技術迭代和用戶教育的雙重投入。理想在自動駕駛上的年研發(fā)投入已經(jīng)超過60億元，利潤同比下降99%——這些數(shù)字說明，這場AI豪賭的籌碼已經(jīng)加到了最大。

下一個關鍵驗證節(jié)點是L9 Livis的量產(chǎn)交付。搭載雙馬赫100芯片、全主動懸架、360度激光雷達布局的新旗艦，是理想VLA能力最完整的載體。如果L9 Livis的智駕體驗能夠真正兌現(xiàn)"行業(yè)領先"的承諾，理想就完成了從"增程之王"到"AI先鋒"的身份轉換的第一步。至于這一步走得好不好，2026年下半年，用戶和市場會給答案。

（雷峰網(wǎng)(公眾號：雷峰網(wǎng))新智駕北京車展2026專題）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏