日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
智能駕駛 正文
發(fā)私信給新智駕
發(fā)送

0

憑什么說自己領先特斯拉和華為?理想VLA研發(fā)復盤

本文作者: 新智駕   2026-04-21 21:35 專題:理想:All in AI重新定義自己
導語:當特斯拉通過海量數(shù)據(jù)力推純視覺端到端,華為堅守“感知-決策-控制”的模塊化路線時,理想自動駕駛交出了第四代答卷。

當AI不再"照抄"人類開車

2025年5月,理想在一場內部活動上展示了一段視頻。視頻中,一輛理想L9駛入一個從未到過的路口,前方是臨時搭建的施工區(qū)域,路面上沒有標線,兩側擺放著反光錐,一個工人正在指揮交通。車輛沒有慌張,減速后向左變道,繞過施工區(qū)域,重新匯入車流。

這段視頻之所以讓現(xiàn)場的工程師們興奮,不是因為變道本身——任何一臺搭載高階智駕的車都能做到。真正讓他們興奮的是這輛車變道的原因:它"理解"了施工區(qū)域的語義,而不僅僅是"檢測"到了反光錐的位置。

這就是VLA(Vision-Language-Action,視覺-語言-動作)和傳統(tǒng)端到端的根本區(qū)別。傳統(tǒng)端到端的做法是"行為克隆"——用海量人類駕駛數(shù)據(jù)訓練模型,讓AI照搬人類的操作??吹椒垂忮F就剎車,看到標線就跟隨,這本質上是一種高級的模仿。VLA的做法是讓AI先"理解"場景,再通過推理做出決策。它不是一個被動的復制者,而是一個主動的思考者。

兩者的差距在Corner Case中會被無限放大。傳統(tǒng)端到端模型面對從未見過的場景時,要么"亂來"——做出明顯錯誤的決策,要么"罷工"——退出智駕把控制權交給人類。因為它的決策依據(jù)是"歷史數(shù)據(jù)中有沒有見過類似的",沒見過就沒有答案。VLA模型面對同樣場景時,會先在內部完成一輪語義推理:"前方有施工區(qū)域→有工人在指揮→通行空間變窄→需要減速并尋找安全的繞行路線→左側車道空曠→執(zhí)行左變道"。這個推理鏈條雖然不一定每次都對,但至少提供了一種超越"經(jīng)驗匹配"的決策機制。

2026年3月,理想自動駕駛基座模型負責人詹錕在NVIDIA GTC 2026上發(fā)布了下一代模型MindVLA-o1,把這個理念推到了新高度。訓練成本降低約75%,引入預測式隱世界模型,原生多模態(tài)MoE架構——這些技術術語背后的核心敘事是:理想正在把自動駕駛從"參數(shù)競賽"拉入"認知競賽"。

理想智駕的四年進化史

VLA不是憑空冒出來的,它是理想在自動駕駛技術路線上持續(xù)迭代的第四代產(chǎn)物。

回看這四年,理想的智駕路線走了一個清晰的"由淺入深"的路徑。2023年及之前,理想的主力是NPN先驗網(wǎng)絡,核心任務是在已建圖的城市中建立穩(wěn)定的感知能力。這個階段的技術底子是高精地圖——車知道自己的精確位置,也知道周圍的精確路況,導航更像是在執(zhí)行一條預設好的軌道。這個方案在高速和快速路上表現(xiàn)良好,但在城市復雜路口、臨時施工區(qū)域等高變化場景中就捉襟見肘了。

2024年,理想開始推進"無圖化"——擺脫對高精地圖的依賴,用車載傳感器實時感知環(huán)境。這個轉變的代價是研發(fā)投入的激增,但收益是場景覆蓋能力的質變:不再受限于地圖覆蓋范圍,理論上"車能開到哪里,智駕就能用到哪里"。2024年底,理想無圖NOA在全國361個城市落地,覆蓋了絕大多數(shù)城市道路。

2025年初,端到端+VLM的方案接棒。VLM(視覺語言模型)的引入是一個轉折點——它讓智駕系統(tǒng)第一次有了"語義理解"的能力,不再只是處理像素和點云,而是能理解"前方有交警在指揮交通""這里是學校區(qū)域""右側車道在施工"這類需要語言推理的場景。

2025年5月至今,VLA司機大模型成為主軸。它在VLM的基礎上進一步打通了"理解"到"行動"的鏈路——不僅理解場景,還直接生成駕駛動作序列。用戶通過VLA指令與智駕系統(tǒng)自然語言交互,比如"跟著前車走""變到左側車道",系統(tǒng)理解語義后直接執(zhí)行。這個交互方式的改變讓用戶對智駕的信任感大幅提升——月使用率從端到端時期的不足50%躍升至80%,全年VLA指令累計使用超過1225萬次。

這四步走的每一步都不是顛覆式的,而是在前一步的基礎上疊加新能力。但四步疊加之后,理想智駕系統(tǒng)的"能力模型"已經(jīng)發(fā)生了質變——從"在高精地圖上跑"到"實時感知世界"再到"理解世界語義"最后到"像人一樣思考和決策"。每一步的幅度不大,但方向從未改變。

四個模塊拼成的大腦

MindVLA-o1不是一個單獨的模型,而是一個由四個模塊組成的完整系統(tǒng)。理想的技術團隊把它描述為"AI閉環(huán)"——數(shù)據(jù)進入、模型訓練、仿真驗證、強化學習、再回到車端部署,每個環(huán)節(jié)都在為下一個環(huán)節(jié)提供更好的輸入。

第一個模塊是MindData,數(shù)據(jù)引擎。 數(shù)據(jù)是VLA的燃料,而理想在數(shù)據(jù)方面的積累正在加速。2025年春節(jié)期間輔助駕駛總里程達2.5億公里,VLA指令使用130.3萬次。全年累計VLA指令使用1225.4萬次,月使用率達到80%。這些真實駕駛行為產(chǎn)生的數(shù)據(jù),比任何仿真都更有價值——因為它們包含了人類駕駛員面對復雜場景時的真實決策邏輯。

但數(shù)據(jù)質量比數(shù)量更重要。理想沒有公開詳細的數(shù)據(jù)清洗流程,但從行業(yè)經(jīng)驗看,VLA模型需要的是"有信息量的數(shù)據(jù)"——高速公路上300公里的勻速巡航對模型訓練幾乎沒有幫助,而一個包含突然變道、行人橫穿、施工繞行的5分鐘城市通勤片段,可能抵得上300公里的高速數(shù)據(jù)。如何從海量原始數(shù)據(jù)中高效地篩選出"有信息量"的片段,是數(shù)據(jù)引擎的核心能力。

第二個模塊是MindVLA-o1本身,核心模型。 它的技術架構圍繞五個維度展開。感知層用3D ViT Encoder作為"眼睛",激光雷達的點云數(shù)據(jù)作為三維幾何的提示信號,讓模型既能"看到"圖像又能"理解"空間關系。思考層在傳統(tǒng)語言模型的基礎上引入了"預測式隱世界模型"——這個概念可以理解為AI的"預演系統(tǒng)"。就像人類駕駛員變道之前會下意識判斷旁邊車輛的速度和距離一樣,VLA會在隱空間中模擬未來多種可能性,選擇最優(yōu)的行動方案。

執(zhí)行層的技術細節(jié)更值得深挖。傳統(tǒng)端到端模型是逐點生成軌跡,速度慢且容易累積誤差。MindVLA-o1采用了VLA-MoE架構,引入專門的Action Expert模塊,可以同時并行解碼所有軌跡點,再通過離散擴散進行多輪迭代優(yōu)化。如果說傳統(tǒng)端到端是"一步一步算",那MoE架構就是"同時算好幾步,再選最好的一條"。

進化層和部署層是支撐長期競爭力的關鍵。閉環(huán)強化學習配合前饋式場景重建,能夠在虛擬環(huán)境中瞬時生成大規(guī)模高保真場景用于訓練——理想宣稱整體訓練成本降低約75%,這在算力價格仍然高企的當下是一個非常重要的效率指標。部署層提出的"軟硬件協(xié)同設計定律"則針對端側部署的痛點:先建模芯片硬件的算力限制,再反向約束模型結構設計,避免"模型能跑但芯片扛不住"的錯配。

第三個模塊是MindSim,世界模型。 它的用途是在虛擬環(huán)境中生成極端場景——連環(huán)事故、突然竄出的行人、暴雨中的高速變道——讓模型在沒有真實數(shù)據(jù)的情況下也能學習應對。這類場景在現(xiàn)實中發(fā)生概率極低,但一旦發(fā)生,模型的應對能力直接關系到生命安全。世界模型的意義在于把"靠運氣積累的極端場景經(jīng)驗"變成"靠算力批量生成的訓練數(shù)據(jù)"。

第四個模塊是RL Infra,強化學習基礎設施。 這是VLA區(qū)別于傳統(tǒng)端到端的關鍵所在。行為克隆只能讓模型"學會人類已有的操作",強化學習能讓模型"探索人類沒試過但可能更好的操作"。兩者的區(qū)別,好比一個是跟著師傅學炒菜,一個是自己反復試哪種火候和調料搭配最好吃。前者學得快但上限受限于師傅的水平,后者學得慢但有可能做出師傅都沒想到的新菜。

四個模塊協(xié)同運作,構成了理想的自動駕駛AI閉環(huán)。每個環(huán)節(jié)的輸出都是下一個環(huán)節(jié)的輸入,數(shù)據(jù)質量決定模型上限,模型能力決定仿真精度,仿真精度決定強化學習效率,強化學習的成果又反過來提升數(shù)據(jù)引擎的標注質量。這個飛輪一旦轉起來,速度會越來越快。

一場關于"怎么理解世界"的路線之爭

VLA不是理想的獨門秘技。特斯拉走純視覺端到端路線,華為走"感知-決策-控制"分模塊路線,小鵬也在2025年發(fā)布了XNGP 5.0的純視覺方案。每家都在探索最優(yōu)的技術路徑,但目前還沒有人能給出定論。

三條路線的本質分歧在于如何理解駕駛場景。

特斯拉的答案是"看多了就會"。FSD基于海量用戶數(shù)據(jù)的行為克隆,通過數(shù)據(jù)驅動的方式覆蓋盡可能多的場景。北美超過200萬活躍FSD用戶每天產(chǎn)生數(shù)百萬英里的駕駛數(shù)據(jù),這些數(shù)據(jù)持續(xù)反哺模型訓練。優(yōu)勢是數(shù)據(jù)量最大、覆蓋場景最廣;劣勢是對從未見過的Corner Case缺乏推理能力,只能靠持續(xù)推送版本來修補。

華為的答案是"分而治之"。ADS將感知、決策、控制拆分為獨立模塊,每個模塊各司其職。優(yōu)勢是安全性和可解釋性強——出了問題能定位到具體模塊,監(jiān)管和審計也更容易通過;劣勢是模塊之間的信息傳遞會損失效率,難以實現(xiàn)真正的端到端優(yōu)化。

理想的答案是"先理解再行動"。VLA在視覺感知和動作輸出之間插入了一個"語言推理"層,讓模型先用自然語言描述場景、分析問題、規(guī)劃策略,再轉化為具體的駕駛動作。理論上,這種架構在面對需要語義推理的復雜場景時——比如理解交警手勢的含義、判斷前方施工區(qū)域的正確通行策略——應該比純視覺端到端和分模塊方案都更有優(yōu)勢。

但理論和現(xiàn)實之間總有一段距離。郎咸朋在2026年初曾表示,OTA 8.2后的VLA"非常確認是行業(yè)領先"。在北京、上海、深圳、杭州累計實測上千公里后,理想預計到2026年底系統(tǒng)MPI(平均接管里程)將突破1000公里。作為參照,華為ADS 3.0的MPI在部分城市已超過2000公里,特斯拉FSD V13在北美也達到了類似水平。理想的VLA確實在快速追趕,但"領先"這個判斷能否經(jīng)得起第三方測試的驗證,還需要更多城市、更多用戶、更多極端場景的持續(xù)考驗。

安全冗余:生成式AI的天生矛盾

VLA路線面臨的最大挑戰(zhàn)不是技術不夠先進,而是一個看似矛盾的問題:生成式模型的核心特征是"不確定性輸出",而自動駕駛的核心要求是"確定性安全"。

ChatGPT每次回答同一個問題,措辭可能不同,甚至可能出現(xiàn)幻覺——在聊天場景中這頂多是用戶體驗問題。但在駕駛場景中,面對同一個前方障礙物,模型這次的決策是"左變道",下次的決策是"急剎車",這種不確定性是不可接受的。

理想在MindVLA-o1中引入了兩層安全約束來解決這個矛盾。第一層是離散擴散機制——模型生成的軌跡不是一步到位的,而是經(jīng)過多輪迭代優(yōu)化,每輪都會檢查軌跡是否符合車輛動力學約束(比如最大轉向角、最大加速度)。不符合的軌跡會被修正或淘汰。第二層是外部安全規(guī)則層——在VLA的推理結果之上疊加一套硬編碼的安全規(guī)則,當模型輸出明顯違反安全規(guī)則的操作時,安全規(guī)則層會強制否決。

這兩層約束在工程上有效,但引入了一個新的問題:當安全規(guī)則頻繁否決VLA的輸出時,系統(tǒng)的"智能性"就被削弱了——用戶會感覺車輛在某些場景下"過于保守",明明可以通行卻選擇停車等待。這種"安全性"和"智能性"的平衡,是所有生成式智駕方案都需要面對的工程難題。

更深層的問題是可解釋性。當傳統(tǒng)模塊化方案出錯時,工程師可以逐層回溯:是感知模塊把錐桶識別成了垃圾桶?還是決策模塊選擇了錯誤的變道策略?每個環(huán)節(jié)都有明確的輸入輸出,問題定位相對簡單。VLA方案的決策過程發(fā)生在一個巨大的神經(jīng)網(wǎng)絡內部,當輸出錯誤時,工程師很難精確判斷是哪個環(huán)節(jié)出了問題——是語義理解錯了?是推理鏈條斷了?還是執(zhí)行層翻譯有誤?這種"黑箱"特性在研發(fā)階段會增加調試成本,在事故調查中也會增加責任界定的難度。

從車到機器人:VLA的終局想象

如果只把VLA看作自動駕駛系統(tǒng),那就低估了理想的野心。

在理想的技術敘事中,汽車被定義為"跑在路上的具身智能體"。MindVLA-o1的四大模塊——數(shù)據(jù)引擎、核心模型、世界模型、強化學習——構成的不是一個專用于駕駛的系統(tǒng),而是一個通用的物理AI框架。這個框架的能力可以遷移到任何需要"感知環(huán)境-理解語義-執(zhí)行動作"的場景——包括家庭服務機器人、工業(yè)物流機器人、倉儲機器人。

2025年,理想投資了斜躍智能(由前理想高管創(chuàng)辦的家庭機器人公司),這正是VLA能力外溢的第一步。家庭場景和駕駛場景的復雜度完全不同——家庭環(huán)境是非結構化的、高度動態(tài)的、包含大量需要常識推理的任務——但核心的認知框架是相通的:感知環(huán)境、理解指令、規(guī)劃動作、安全執(zhí)行。

馬赫100芯片則提供了算力基座。5nm制程、單顆1280TOPS、雙顆2560TOPS,這樣的端側算力不僅足夠部署當前參數(shù)量的VLA模型,還為未來更大規(guī)模的模型留出了空間。當芯片+算法+數(shù)據(jù)三個要素齊備,理想就擁有了向"具身智能平臺"躍遷的技術底座。

但終局仍遠。VLA目前的月使用率80%、MPI目標1000公里,在用戶體驗層面距離"離不開"還有相當?shù)木嚯x。從"能用"到"好用"再到"不可或缺",每一步跨越都需要技術迭代和用戶教育的雙重投入。理想在自動駕駛上的年研發(fā)投入已經(jīng)超過60億元,利潤同比下降99%——這些數(shù)字說明,這場AI豪賭的籌碼已經(jīng)加到了最大。

下一個關鍵驗證節(jié)點是L9 Livis的量產(chǎn)交付。搭載雙馬赫100芯片、全主動懸架、360度激光雷達布局的新旗艦,是理想VLA能力最完整的載體。如果L9 Livis的智駕體驗能夠真正兌現(xiàn)"行業(yè)領先"的承諾,理想就完成了從"增程之王"到"AI先鋒"的身份轉換的第一步。至于這一步走得好不好,2026年下半年,用戶和市場會給答案。

(雷峰網(wǎng)(公眾號:雷峰網(wǎng))新智駕北京車展2026專題)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說