不止于智駕：小米AI大模型如何串聯座艙、駕駛與人車家全生態(tài)

本文作者：新智駕

2026-04-21 21:33

專題：小米：2027出海倒計時：中國智造，全球普惠

導語：

2025年3月，小米汽車發(fā)布了一組讓行業(yè)意外的數據：XLA認知大模型研發(fā)投入已達57.9億元，團隊規(guī)模超過1800人，測試車隊超過400臺。

這個投入規(guī)模放在全行業(yè)是什么概念？小米作為一個2024年3月才交付第一輛車的品牌，在智駕AI上的資源投入已經躋身行業(yè)第一梯隊。

更讓人意外的是，這組數據不只服務于智駕。在小米的AI版圖里，駕駛只是一條支線——座艙里的超級小愛、手機上的海量用戶、家里的智能空調和掃地機器人，都站在同一條大模型底座之上。

這就是小米和其他車企最大的不同。華為ADS專注把駕駛做到極致，特斯拉FSD把純視覺路線走到黑，而小米的XLA從一開始就不是"智駕大模型"——它是一個認知大模型，碰巧也能開車。

數據驅動的技術進化

2025年7月，小米向用戶推送了基于1000萬個Clips訓練的新版XLA。所謂Clip，是小米對訓練數據的基本單元定義：每段約30秒的多傳感器同步記錄，融合激光雷達點云、攝像頭圖像、毫米波雷達信號、導航路徑和車外聲音。1000萬Clips，意味著超過8300小時的真實道路駕駛場景，全部來自中國路況。

8300個小時是什么概念？一個全職網約車司機一年的運營時長大約在2500到3000小時之間。也就是說，XLA的訓練數據量相當于近3個司機連續(xù)不斷地開了三年車，而且這些數據不是來自單個城市，而是覆蓋了中國各地的高速公路、城市快速路、城中村窄路、環(huán)島路口等各種場景。

截至2025年11月，小米汽車輔助駕駛用戶達47.3萬人，累計輔助駕駛里程突破3億公里，避免可能的碰撞累計45.7萬次，泊車輔助累計使用3096.4萬次。輔助駕駛功能活躍占比達90%。

這個數據增長速度在行業(yè)內相當可觀。更重要的是，這3億公里全部來自小米自研系統(tǒng)的真實用戶數據，數據閉環(huán)的純凈度遠高于采購第三方方案的車企。

XLA的潛空間推理能力

XLA真正的技術突破，藏在一個叫"潛空間推理"（Latent Chain-of-Thought）的架構設計里。

傳統(tǒng)的端到端模型在做決策時，需要把感知結果翻譯成人類可讀的語言進行中間推理，再翻譯回機器指令。這個過程存在兩層損耗：語言翻譯丟失高維信息，中間推理增加決策延遲。

小米XLA的做法是——跳過人類語言，直接用高維向量空間做推理。系統(tǒng)在潛空間里完成"思考"，最終輸出駕駛指令的同時，還能生成一條可追溯的推理鏈。這意味著工程師可以事后檢查：XLA在某個路口為什么選擇了左轉而不是直行？哪一層推理出了偏差？

低時延加上可解釋性，這是大多數端到端智駕系統(tǒng)至今未能同時解決的矛盾。英偉達在2025年的技術白皮書中也提到，"可解釋性"是端到端智駕從L2+邁向L3的關鍵瓶頸之一。小米選擇用"潛空間"這個更偏學術的概念來回答這個工程難題，某種程度上反映了小米AI實驗室的學術基因。

支撐XLA運行的硬件同樣激進：新一代SU7搭載英偉達Thor芯片，算力達到700TOPS，是上一代Orin X（84TOPS）的8倍以上。Thor芯片的算力富余為XLA的多任務并行提供了硬件基礎——智駕、座艙語音、環(huán)境感知、路徑規(guī)劃可以共享同一塊芯片的計算資源，避免了多芯片架構之間的通信延遲。

從"聽話"到"懂你"

如果把XLA比作小米汽車的大腦，那"超級小愛"就是這張臉。

2026款SU7發(fā)布會上，小米展示了小愛同學在車端的幾項進化：方言識別從3種擴展到7種，新增了人格腔調模仿能力，聲音從合成感變成了帶有呼吸和停頓的"蜜糖音色"。

這些聽起來像是產品噱頭，但背后是小米在手機端積累的真實數據優(yōu)勢。小愛同學在中國擁有龐大的用戶基礎，每天被喚醒數億次。多年的手機語音交互數據，直接遷移到了車端。這個數據積累量，是任何一家車企的座艙團隊都無法企及的。

更值得關注的是多模態(tài)理解能力的突破。2026款SU7支持"可視即可問"功能：用戶指著車窗外的一棟建筑問"這是什么"，系統(tǒng)能識別并回答。路過一片不認識的花，拍照就能給出品種和花期。這些場景不是靠預設數據庫，而是通過多模態(tài)大模型實時理解。和傳統(tǒng)座艙的"語音助手+預設指令"模式相比，這是一個質的跨越——從"執(zhí)行指令"變成了"理解意圖"。

車外語音交互是另一個獨特場景。小米SU7配備了360度拾音系統(tǒng)，支持車主站在車外用語音控制泊車——"幫我靠左停進那個車位"。系統(tǒng)結合聲紋識別確認車主身份（防止陌生人通過語音控制車輛），再調用XLA的感知和規(guī)劃能力執(zhí)行泊入。這個場景的巧妙之處在于，它把語音交互從車內延伸到了車外，讓車變成了一個可以"聽懂指令并執(zhí)行"的智能體。

此外，超級小愛在座艙內還實現了"上下文記憶"能力。你可以先說"導航去公司"，路上又說"幫我點一杯咖啡"，系統(tǒng)會自動把咖啡送到公司地址附近——它記住了你之前的導航目標作為上下文。這種多輪對話能力在手機端已經是標配，但遷移到車端后，配合位置信息和時間信息，能衍生出更豐富的場景。

VLA和世界模型：兩條路都走

2025年的智駕行業(yè)有一個激烈的技術路線之爭：VLA（視覺-語言-動作）和世界模型，哪個才是終局？

VLA陣營認為，自動駕駛本質是一個"看-理解-行動"的閉環(huán)，語言模型提供了常識推理能力，可以直接橋接感知與控制。大語言模型展現出的泛化能力讓這個方向備受期待——如果一個模型能理解"行人可能突然加速跑過馬路"這種常識，那它理論上也能在駕駛中做出更類人的預判。

世界模型陣營則認為，真正的自動駕駛需要系統(tǒng)"理解"物理世界的運行規(guī)律——預測其他車輛的運動軌跡、理解交通流的節(jié)奏、預判行人過馬路的意圖。這種理解不能靠語言常識來替代，而需要通過物理仿真和數據驅動來構建一個內部的"世界表征"。

小米的選擇是：不走單一路線，兩者融合。

XLA的架構里，世界模型負責構建環(huán)境理解和預測能力，VLA提供常識推理和決策泛化，兩者通過強化學習機制無縫銜接。雷軍在內部技術分享中表達過一個觀點："這兩種路線不是非此即彼，而是相輔相成。世界模型解決的是'理解世界'，VLA解決的是'做出行動'。缺了任何一個，都不是完整的自動駕駛。"

與特斯拉FSD對比，小米堅持多傳感器融合路線（激光雷達+視覺+毫米波雷達），FSD則走純視覺。兩者的訓練數據結構也完全不同：FSD積累了海量純視覺視頻數據，優(yōu)勢在于規(guī)模和全球覆蓋；XLA的1000萬Clips則包含多傳感器同步信息，優(yōu)勢在于每個數據點的信息密度更高——同一個Clip里，激光雷達提供了精確的三維距離，攝像頭提供了顏色和紋理，毫米波雷達補充了速度和穿透能力。

與華為ADS對比，差異更多在商業(yè)模式上。華為ADS定位平臺化智駕方案，同時服務問界、智界、享界、尊界等多品牌，依靠規(guī)模效應攤薄研發(fā)成本；小米XLA則完全自研自用，數據閉環(huán)不對外開放。兩條路線各有利弊：華為靠規(guī)模攤薄成本，合作車企越多單位研發(fā)成本越低；小米靠閉環(huán)加速迭代，數據純凈度更高，迭代速度不受合作方掣肘。

值得注意的是，華為ADS和小米XLA都選擇了多傳感器融合路線，這說明至少在中國復雜的道路環(huán)境下，純視覺方案的安全性冗余仍然是行業(yè)共識。特斯拉堅持純視覺更多是成本邏輯（省掉一顆激光雷達能降低數千元硬件成本），而非技術路線上的絕對優(yōu)劣判斷。

人車家生態(tài)的終極場景

如果只看智駕和座艙，小米XLA和華為ADS、特斯拉FSD的差距并不算懸殊。真正讓小米的AI布局與眾不同的，是"人車家全生態(tài)"——一個能同時串聯手機、汽車和智能家居的大模型體系。

小米澎湃OS是這個生態(tài)的底層操作系統(tǒng)。2024年底發(fā)布的澎湃OS 2.0，集成了Xiaomi HyperAI端云大模型矩陣，在底層打通了HyperCore（性能內核）、HyperConnect（互聯引擎）和HyperAI（智能引擎）三大模塊。這套架構的設計思路和鴻蒙OS 4.0有相似之處——都是在操作系統(tǒng)層面嵌入AI能力，而非在應用層做AI功能的疊加。

落到具體場景上，有幾個值得關注的聯動能力：

跨設備記憶。用戶在車上聽過一首歌，到家后小米音箱會推薦同類型歌單。上周用車載導航去過的咖啡店，手機會自動推薦附近的分店。這些不是簡單的數據同步，而是大模型對用戶習慣的理解和延續(xù)。XLA的世界模型不只理解駕駛環(huán)境，也在學習用戶的偏好模型——你在什么時間、什么地點、做什么事。這種理解能力，單個設備上的AI是做不到的。

智能家居聯動。距離家5公里時，空調自動開啟、熱水器預熱、掃地機器人回充。到達地庫后，家中燈光根據時間自動切換至"回家模式"。這些場景在2026款SU7上已經可以實現，通過XLA的場景理解引擎自動觸發(fā)，不需要用戶手動設置自動化規(guī)則。和傳統(tǒng)IoT的"if-then"自動化不同，XLA能理解"距離家5公里"的語義含義——是正常下班還是臨時繞路？是凌晨回家還是晚上八點？根據不同情境做出不同響應。

蘋果生態(tài)兼容。在小米的用戶群里，iPhone用戶比例不低。小米通過UWB近場通信實現了iPhone靠近SU7自動解鎖車門，靈動島顯示車輛狀態(tài)，CarPlay無線連接。這不是"擁抱蘋果"，而是一個務實的生態(tài)策略——大模型的世界模型需要覆蓋盡可能多的設備類型，用戶的手機是蘋果還是小米，不應該影響座艙AI的體驗。

雷軍曾用"泛機器人"來形容小米汽車的戰(zhàn)略定位。在他看來，汽車是小米機器人版圖中最大的一個產品形態(tài)。XLA認知大模型不只是讓車能自己開，更是在為未來的具身智能場景積累核心能力——無論這個"機器人"是四輪的還是兩條腿的。從這個角度看，小米投入57.9億元做XLA，就不只是"為了做好智駕"這么簡單了。

大模型的下半場

截至2026年初，小米XLA面臨的局面是：智駕能力追趕頭部選手的窗口期正在收窄，但"不止于智駕"的差異化路線仍有擴展空間。

有利的一面是數據的飛輪效應。47.3萬用戶每月貢獻的駕駛里程在持續(xù)增長，1000萬Clips的訓練基座會快速膨脹。2025年第四季度，小米推送了新一代XLA端到端架構，進一步提升復雜場景的處理能力。如果用戶增長保持當前勢頭，XLA的訓練數據量有望持續(xù)擴張，這個增速在行業(yè)內相當可觀。

超級小愛的手機端遷移也是獨特優(yōu)勢。龐大的用戶基礎每天都在和AI對話，這些交互數據可以直接優(yōu)化車端的語音和認知能力。在"讓AI理解中國用戶"這件事上，小米的數據積累可能比大多數車企都深厚。更何況，小米AI實驗室在2023年就發(fā)布了自研的大語言模型MiLM，在大模型領域的技術儲備不比任何一家車企差。

即將上市的YU9（增程SUV）也將搭載XLA認知大模型，這意味著小米的AI能力將從純電轎車擴展到增程SUV品類。增程車型的高速長途場景更多，能進一步豐富XLA在不同速度區(qū)間和路況下的訓練數據。

挑戰(zhàn)同樣存在。智駕端，華為ADS 4.0已經落地城市NOA全國開城，特斯拉FSD也在加速進入中國市場，留給小米XLA追趕到第一梯隊的時間不多了。算力端，大模型的能耗問題在車端更為嚴峻，Thor芯片雖然算力強大，但功耗和散熱在車載環(huán)境下都是工程難題。如何平衡AI能力和整車能效，是小米需要持續(xù)攻克的課題。

但57.9億只是起跑線上的投入。小米真正想做的事情，不是造一輛"能自己開的車"，而是造一個"能理解世界的移動終端"。XLA認知大模型是這臺終端的大腦，超級小愛是它的臉，人車家生態(tài)是它的手和腳。

從這個角度看，小米的AI大模型布局確實不止于智駕。智駕只是它向世界證明自己能力的第一張答卷。第二張答卷，可能是一臺能理解你回家習慣的汽車，一臺能在你開口之前就知道你要去哪的車載AI，一臺讓"科技普惠"真正落到每個用戶日常出行的智能終端。

（雷峰網(公眾號：雷峰網)新智駕北京車展2026專題）

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

小米：2027出海倒計時：中國智造，全球普惠

本專題其他文章

新智駕

編輯

發(fā)私信

當月熱門文章