商湯絕影發(fā)布端側(cè)多模態(tài)智能體基座大模型Sage ，PinchBench 實(shí)測 94% 最佳任務(wù)完成率領(lǐng)跑主流大模型

本文作者：於

2026-04-22 10:35

導(dǎo)語：2026 年 4 月 22 日——商湯絕影正式發(fā)布端側(cè)多模態(tài)智能體基座大模型 Sage。

2026 年 4 月 22 日——商湯絕影正式發(fā)布端側(cè)多模態(tài)智能體基座大模型 Sage。Sage 采用 MoE 架構(gòu)，總參數(shù)量為 32B，激活參數(shù)僅 3B ，是行業(yè)內(nèi)首款在車端實(shí)現(xiàn)復(fù)雜智能體能力的基座大模型，在 PinchBench 上性能領(lǐng)跑全球一線云端大模型，已在英偉達(dá) Orin X 端側(cè)平臺(tái)實(shí)現(xiàn)部署。

AI 全面進(jìn)入智能體時(shí)代，而汽車的復(fù)雜智能體能力依賴云端，端側(cè)模型受算力與參數(shù)限制，僅能實(shí)現(xiàn)簡單指令響應(yīng)。智能座艙因此陷入兩難，依賴云端則有延遲與高 Token 成本，堅(jiān)守端側(cè)則缺失真正智能體能力。Sage 的發(fā)布打破這一格局，首次將云端級(jí)智能體能力落地端側(cè)。

作為端側(cè)智能體基座，Sage 可接入 OpenClaw、Hermes 等主流 Agent 框架，為更多端側(cè)智能體落地提供核心支撐，可覆蓋出行、家庭等全場景。

Sage 的實(shí)力，已在國際公開評(píng)測中得到印證。在公開 Agent 評(píng)測基準(zhǔn) PinchBench 中，Sage 端側(cè)大模型最佳任務(wù)完成率達(dá)到 94%，超越Claude-Opus-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Google-Gemma-4（83.9%）、Qwen3.5-27B（90.0%）、MiniMax-M2.7（89.8%）、MiMo-v2-Pro（87.4%）等國際主流云側(cè)和端側(cè)大模型。

商湯絕影發(fā)布端側(cè)多模態(tài)智能體基座大模型Sage ，PinchBench 實(shí)測 94% 最佳任務(wù)完成率領(lǐng)跑主流大模型

Sage 以僅3B激活的小參數(shù)量，超越眾多大參數(shù)量云側(cè)旗艦，打破 “只有大模型才能做好智能體任務(wù)” 的慣性認(rèn)知，彰顯端側(cè)原生技術(shù)路線的高效優(yōu)勢。以小米MiMo-v2-Pro 為例，其激活參數(shù)為 42B、總參數(shù)規(guī)模超 1T，而 Sage 激活參數(shù)僅 3B，所需激活算力僅為其 1/14；若按模型權(quán)重規(guī)模近似估算，顯存占用約為其 1/31，但在 PinchBench 上的最佳任務(wù)完成率仍高出 6.6 個(gè)百分點(diǎn)。

商湯絕影發(fā)布端側(cè)多模態(tài)智能體基座大模型Sage ，PinchBench 實(shí)測 94% 最佳任務(wù)完成率領(lǐng)跑主流大模型

PinchBench 是龍蝦之父Peter Steinberger推薦的公開 Agent 評(píng)測基準(zhǔn)。作為面向真實(shí) Agent工作流的評(píng)測榜單，PinchBench 不依賴固定不變的靜態(tài)題庫，而是隨著公開任務(wù)庫持續(xù)擴(kuò)充和版本迭代不斷演進(jìn)。其公開任務(wù)庫覆蓋寫作、研究、編碼、分析、郵件、文件處理、日程管理、記憶與技能調(diào)用等典型場景，重點(diǎn)考察模型在工具調(diào)用、多步推理和任務(wù)閉環(huán)執(zhí)行中的綜合能力。

與此同時(shí)，PinchBench 評(píng)測要求模型完成真實(shí)任務(wù)執(zhí)行，并綜合衡量成功率、速度與成本，因此測試周期更長、資源消耗更高，單任務(wù)token消耗就可達(dá)數(shù)十萬量級(jí)。正因如此，模型在 PinchBench 上取得的精度表現(xiàn)，更能體現(xiàn)其在復(fù)雜真實(shí)場景中的綜合能力與穩(wěn)定性。

在北京車展期間，商湯絕影將正式推出搭載 Sage 端側(cè)多模態(tài)智能體基座大模型的Sage Box，為汽車邁入超級(jí)智能體時(shí)代筑牢核心根基。

憑借兩大黑科技，Sage 讓座艙從“聽懂指令”到“說到做到”

Sage 端側(cè)大模型在 PinchBench跑贏一眾國際主流云/端大模型背后真正的功臣，是商湯絕影圍繞 Sage 后訓(xùn)練階段自研的兩項(xiàng)關(guān)鍵技術(shù)：SCOUT 和 ERL。

以 SCOUT 和 ERL 為核心的后訓(xùn)練技術(shù)體系，一項(xiàng)讓模型"學(xué)得又快又省"，一項(xiàng)讓模型"做事不出錯(cuò)"，重點(diǎn)突破智能體在學(xué)習(xí)效率、訓(xùn)練成本和復(fù)雜任務(wù)穩(wěn)定執(zhí)行上的行業(yè)挑戰(zhàn)，解決了讓車載大模型從"能聽懂指令"進(jìn)化到"能獨(dú)立辦成一件復(fù)雜的事"的行業(yè)公認(rèn)難題。

SCOUT：讓大模型學(xué)復(fù)雜任務(wù)，省 60% 算力

SCOUT（Sub-Scale Collaboration On Unseen Tasks，分級(jí)協(xié)同學(xué)習(xí)框架）技術(shù)重點(diǎn)解決大模型學(xué)習(xí)復(fù)雜出行場景任務(wù)時(shí)成本高、試錯(cuò)慢的問題，在復(fù)雜任務(wù)能力注入過程中可節(jié)省約 60% 的 GPU 小時(shí)消耗。

很多任務(wù)涉及空間規(guī)劃、設(shè)備聯(lián)動(dòng)、多步?jīng)Q策，直接讓大模型自己試錯(cuò)學(xué)習(xí)，既慢又燒算力。SCOUT 的思路是"探路與吸收解耦"——先派一個(gè)輕量小模型快速在任務(wù)里跑一遍，把走得通的路徑篩出來，再把這些高價(jià)值經(jīng)驗(yàn)喂給大模型學(xué)習(xí)，形成"小模型先探路，大模型再吸收"的學(xué)習(xí)機(jī)制，在降低訓(xùn)練成本的同時(shí)，也能夠快速掌握更多真實(shí)用車場景技能。

（上述技術(shù)成果論文已上傳arXiv：https://arxiv.org/abs/2601.21754）

ERL：讓模型自己擦掉錯(cuò)誤步驟，任務(wù)成功率提升 20%

已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 ICLR 2026 收錄的ERL（Erasable Reinforcement Learning，可擦除強(qiáng)化學(xué)習(xí)）技術(shù)，聚焦復(fù)雜任務(wù)鏈路中的錯(cuò)誤識(shí)別與糾偏。用戶在真實(shí)使用中提出的需求，往往需要模型跨多個(gè)步驟完成推理和執(zhí)行，中間一旦某一步出現(xiàn)偏差，整個(gè)任務(wù)流程就可能失效。

ERL 讓模型能夠自動(dòng)識(shí)別推理過程中的錯(cuò)誤步驟，對(duì)錯(cuò)誤內(nèi)容進(jìn)行擦除并重新生成，從源頭阻斷偏差擴(kuò)散，就像給模型裝上了"邊想邊糾錯(cuò)"的能力。這項(xiàng)技術(shù)讓 Sage 在多跳復(fù)雜推理基準(zhǔn)上較此前 SOTA 取得顯著提升，裝車后 Sage 在復(fù)雜任務(wù)上的完成率提升了 20%。

（上述技術(shù)成果論文已上傳arXiv：https://arxiv.org/abs/2510.00861）

SCOUT 和 ERL 兩項(xiàng)技術(shù)前后協(xié)同共同推動(dòng) Sage 從語言大模型演進(jìn)為能夠獨(dú)立完成復(fù)雜任務(wù)的智能體。疊加一體化多模態(tài)架構(gòu)與原生訓(xùn)練數(shù)據(jù)的優(yōu)勢，Sage 在能力、成本與量產(chǎn)可行性之間取得了平衡，為打造智能體中樞提供了核心 AI 支撐。

端側(cè)跑出全球領(lǐng)先能力，Sage 定義智能上限

如果說 PinchBench 94% 的任務(wù)完成率證明了 Sage 能"辦成復(fù)雜的事"，那么真正決定座艙體驗(yàn)的，是模型在各個(gè)專業(yè)維度上是不是都"夠用、夠穩(wěn)、夠聰明"。不同能力維度的公開基準(zhǔn)上，Sage 全面領(lǐng)先本月最新發(fā)布的同量級(jí)端側(cè)旗艦?zāi)Ｐ?Google-Gemma4，把端側(cè)模型的能力天花板抬到了一個(gè)新的水位。

MMLU Pro（跨學(xué)科專業(yè)知識(shí)）測試中，Sage 獲 76 分，領(lǐng)先同級(jí)端側(cè)模型約 10%，證明端側(cè)模型具備云端級(jí)通用知識(shí)密度；GPQA Diamond（研究生級(jí)專業(yè)推理）測試中，Sage 獲得 77 分，提升 33%，凸顯復(fù)雜推理深度；Human Semantic Understanding（座艙語義與視覺理解）測試中獲 91 分，提升 32%，依托原生數(shù)據(jù)建立獨(dú)特優(yōu)勢。

商湯絕影發(fā)布端側(cè)多模態(tài)智能體基座大模型Sage ，PinchBench 實(shí)測 94% 最佳任務(wù)完成率領(lǐng)跑主流大模型

在重點(diǎn)考察任務(wù)執(zhí)行能力的 τ2-bench（工具調(diào)用與任務(wù)閉環(huán)）基準(zhǔn)上，Sage 以 80 分的成績相較 Gemma 4 實(shí)現(xiàn) 38% 的提升，接近翻倍領(lǐng)先。這項(xiàng)基準(zhǔn)專門評(píng)估模型調(diào)用工具、走完多步任務(wù)的實(shí)戰(zhàn)能力，也是區(qū)分"會(huì)聊天的模型"與"會(huì)辦事的智能體"的關(guān)鍵分水嶺。τ2-bench 上近一倍的領(lǐng)先，直接印證了 Sage 作為端側(cè)智能體基座在真實(shí)任務(wù)執(zhí)行環(huán)節(jié)上的絕對(duì)優(yōu)勢。

從專業(yè)基準(zhǔn)到場景體驗(yàn)：Sage 真正"懂場景、會(huì)思考、能服務(wù)"

這些專業(yè)能力落到真實(shí)車艙，轉(zhuǎn)化為一組直接影響用戶體驗(yàn)的指標(biāo)：Sage 場景推理精度超過 90%，長鏈路工具調(diào)用、邏輯規(guī)劃、環(huán)境感知任務(wù)成功率分別達(dá) 92%、89%、94%，復(fù)雜指令遵循率提升 40%。

在 Orin X 平臺(tái)部署下，Sage 可實(shí)現(xiàn)首字響應(yīng)（TTFT）約0.5秒、單 Token 推理延遲（TPOT）低至0.03秒、生成吞吐達(dá)到80 tk/S，平均任務(wù)時(shí)長優(yōu)于主流API 模型，為座艙智能體提供穩(wěn)定、實(shí)時(shí)、可持續(xù)在線的運(yùn)行能力。

模型可以一次性解析用戶的復(fù)合指令，自動(dòng)聯(lián)動(dòng)空調(diào)、影音、導(dǎo)航等車載系統(tǒng)完成任務(wù)閉環(huán)；結(jié)合傳感器對(duì)乘員狀態(tài)與路況的感知，還能主動(dòng)提供兒童模式、智能路線調(diào)整等服務(wù)。

Sage 不再是"被動(dòng)喚醒、單次響應(yīng)"的語音助手，而是一個(gè)真正懂場景、會(huì)思考、能服務(wù)的出行伙伴。

商湯絕影 Sage 端側(cè)多模態(tài)智能體基座大模型為艙駕一體方案打通了量產(chǎn)可行的模型路徑，打破了技術(shù)與落地之間的壁壘，推動(dòng)智能座艙從基礎(chǔ)交互向高階艙駕融合智能體服務(wù)跨越。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章