「雙線實測」Qwen 3.6-Plus，Agentic Coding 已經(jīng)這么能「扛活兒」了？

本文作者：梁丙鑒

2026-05-11 11:44

導語：全球最強編程模型，中國造。?

雷峰網(wǎng)(公眾號：雷峰網(wǎng))訊你可以從同事.skill 的爆火中看到兩種截然不同的時代情緒，其一固然是對 Markdown 文件“大變活人”這一魔幻現(xiàn)實的試探，而反面則是如今對模型能力的評價，已經(jīng)離不開工作級任務的場景。

“AI 能不能替代程序員”的老生常談之下，今天的真問題是，國產大模型能在多大程度上接管開發(fā)工作流。

這背后是一個被反復驗證的痛點：當 AI Agent 被放進真實項目，它并沒有想象中那么“能扛活”。它能開始任務，但執(zhí)行過程反復中斷，多輪對話后上下文丟失，結果前后不一致。面對非標準需求時，工具調用也頻頻失誤。你一覺醒來，發(fā)現(xiàn)流程早已卡死，標準結局總是如此。

問題的根源不在 Agent 的外殼，而在底層大模型本身還缺乏穩(wěn)定可靠的“執(zhí)行力”和“決策力”。

4月7日，阿里云通義千問 Qwen3.6-Plus 正式上線，在 Terminal-Bench 2.0 編程測試中超越了 Claude Opus 4.5，拿下全球編程模型榜首。

但我們決定換一種更接近真實場景的方式測一次，不用單點的 Benchmark，而是用兩套真實復雜任務，覆蓋“決策”與“執(zhí)行”兩條能力軸，全面評估 Qwen 3.6-Plus 的智能體能力上限。

核心實測——“雙線”考核：
復雜決策 × Agentic Coding

現(xiàn)實中高價值的工作級任務，往往是多因素、多步驟、有約束、有風險，和“一步到位”的 ChatBot 對模型有著完全不同的能力需求。因此，大模型從“聊天工具”變成真正的智能體，復雜決策能力是一個分水嶺。

在本次測評中，我們選擇智能體決策與智能體編程兩個高難度、高價值場景，構建了雙線考核體系，檢驗模型在真實復雜任務中的自主規(guī)劃、動態(tài)決策與工程落地能力：

▎case1 教育改革試點方案設計：復雜規(guī)劃與現(xiàn)實決策

我們采用具備主動執(zhí)行能力的代表性智能體框架 OpenClaw 進行測試，在教育改革背景下要求模型設計貼近真實場景的復雜規(guī)劃任務，從而系統(tǒng)評估模型在目標理解、任務拆解、路徑規(guī)劃、方案細化與執(zhí)行決策等全流程環(huán)節(jié)中的表現(xiàn)。

這不是一道作文題，我們設計的任務難度遠超常規(guī)：

代碼塊

某市教育局計劃在 6 個月內，為 20 所公立中學試點部署一套“AI 學習助手”系統(tǒng)，幫助學生進行課后答疑、個性化練習和學習反饋。

已知條件如下：

- 總預算上限為 800 萬元人民幣

- 試點學校中，城區(qū)學校 8 所，縣鎮(zhèn)學校 12 所，數(shù)字化基礎差異明顯

- 部分教師擔心 AI 會增加備課和管理負擔

- 家長對于學生數(shù)據(jù)隱私、沉迷使用、以及答案依賴問題存在顧慮

- 教育局要求項目不能明顯擴大不同地區(qū)、不同家庭背景學生之間的教育差距

- 項目必須在下學期開始前完成首輪部署，且不能額外長期新增大量編制

- 若試點效果良好，未來 2 年內將考慮擴大到全市 200 所學校

請你作為項目顧問，完成一份試點實施方案。你的回答至少需要包括：

1. 問題定義

2. 目標與約束拆解

3. 6 個月試點方案

4. 公平性與風險控制

5. 評估體系

6. 是否擴大到 200 所學校的決策標準

額外要求：

- 明確說明關鍵假設

- 至少提出 2 個備選方案，并解釋推薦理由

- 體現(xiàn)短期可落地性與長期可擴展性的平衡

- 盡量給出可執(zhí)行機制，而不是只講原則

補充條件：試點開始 2 個月后，媒體報道某校學生過度依賴 AI 完成作業(yè)，引發(fā)家長爭議；同時另有 3 所縣鎮(zhèn)學校反饋網(wǎng)絡與終端條件不足，實際使用率遠低于城區(qū)學校。請在原方案基礎上動態(tài)調整你的策略。

任務要求模型輸出：問題定義、目標約束拆解、6個月試點方案、公平性風險控制、評估體系、是否擴大的決策標準，以及要求至少2個備選方案并說明推薦理由。

這考驗的不是文字生成能力，而是真正的“任務拆解與組織執(zhí)行”能力。一般模型很容易輸出一堆空洞的規(guī)劃方案，且極難把控資源分配與具體任務拆解，看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的：

1.復雜問題結構化拆解

把模糊需求快速轉化為問題定義、目標分層、約束清單、預算分配、時間線、評估體系等完整框架，邏輯嚴密、層級清晰，全程無口號空話，體現(xiàn)專業(yè)級復雜決策與任務拆解水平。

2.多約束下精準資源平衡

在 800 萬預算、6 個月周期、城鄉(xiāng)差異、教師負擔、公平底線、無新增編制等多重強約束下，給出可執(zhí)行、可量化、可評審的落地方案，預算一分不差、資源向縣鎮(zhèn)傾斜，兼顧效率與公平。

3.動態(tài)風險應急與迭代決策

面對試點第 2 個月輿情危機 + 縣鎮(zhèn)設備網(wǎng)絡不足雙突發(fā)事件，模型快速給出應急響應、功能調整、預算內部調劑、部署重排，做到不超預算、不延期、閉環(huán)解決，展現(xiàn)真實智能體動態(tài)決策能力。

4.全周期規(guī)劃與規(guī)模化擴展思維

Qwen3.6-Plus 不僅完成了 6 個月試點設計，還同步給出試點規(guī)模擴展至 200 所學校的 Go/No-Go 硬標準、三階段擴展路徑、成本優(yōu)化機制，從架構、制度、人員、數(shù)據(jù)全方面預留接口，短期可落地、長期可擴展，思維閉環(huán)且專業(yè)。

可以看到，Qwen3.6-Plus 在本次政府級復雜決策任務中，交付了完成度極高的方案，這背后是高水平的目標理解、全鏈路規(guī)劃、動態(tài)風險應對、多約束平衡能力，正是我們對智能體在面對復雜決策時所期待的。

「雙線實測」Qwen 3.6-Plus，Agentic Coding 已經(jīng)這么能「扛活兒」了？

▎case2 AI TODO Board 全流程開發(fā)：Coding 能力考核

如果說 case1 是考察復雜場景的決策能力，那么 case2 則側重于 Qwen3.6-Plus 在 Coding 任務中的工程閉環(huán)水平。

我們采用開源智能編程工具 OpenCode 進行測試，重點考察模型是否具備從需求理解到完整項目交付的全鏈路工程實現(xiàn)能力。評估內容不僅包括最終項目是否可運行、功能是否完整有效、代碼結構是否清晰合理，還覆蓋模型在編程全流程中的關鍵能力，任務拆解、實現(xiàn)路徑規(guī)劃、階段性決策、測試與調試、問題定位與修復，以及基于反饋持續(xù)迭代并收斂到可用結果的能力。

# Coding Evaluation Task

你是一個高級軟件工程 Agent，請完成一個可運行的 **TODO** 項目，并體現(xiàn)完整閉環(huán)能力：需求理解、任務拆解、實現(xiàn)規(guī)劃、編碼、測試、修復、交付。

任務：開發(fā)一個 **AI TODO Board**，讓用戶通過自然語言創(chuàng)建 TODO，在看板中管理狀態(tài)，并通過 AI 風格能力自動拆解子任務、識別優(yōu)先級、提示風險和下一步動作。

技術要求：Next.js 15+ 或 React + Vite，TypeScript，Tailwind CSS，可使用 shadcn/ui 或 Radix UI，測試使用 Vitest / Jest + Testing Library，可使用 mock 數(shù)據(jù)，不要求真實后端。

功能要求：實現(xiàn)三列 TODO 看板 Todo、Doing、Done；每個 TODO 卡片至少包含標題、描述、優(yōu)先級、截止時間、標簽、子任務摘要、完成進度；支持狀態(tài)流轉，可拖拽，如不使用拖拽需提供合理替代交互。提供自然語言輸入框，例如“明天下午前完成招聘首頁改版，包含 Hero、崗位列表、FAQ，優(yōu)先級高”，系統(tǒng)需自動提取標題、解析時間、推斷優(yōu)先級、生成 3–5 個子任務，并允許用戶在提交前編輯。右側提供 AI Assistant 面板，支持 TODO 拆解建議、風險提示、下一步建議、逾期提醒。需要支持搜索、按優(yōu)先級篩選、僅看逾期、快速標記完成、空狀態(tài)、加載態(tài)、錯誤態(tài)。

UI / UX 要求：暗色模式優(yōu)先，現(xiàn)代、精致、未來感 SaaS 風格，有明顯層級、留白、卡片質感和細微動效，桌面端完整可用，移動端基本可用，不能是腳手架默認后臺風格。

你必須輸出：1. 需求理解，2. 實現(xiàn)計劃，3. 項目結構，4. 核心代碼，5. 測試代碼，6. 修復過程，7. 運行說明，8. 權衡與不足。

必須測試：自然語言解析函數(shù)、創(chuàng)建 TODO 流程、TODO 狀態(tài)切換邏輯、篩選邏輯。

實現(xiàn)后繼續(xù)修復并說明過程：移動端橫向溢出，輸入“明天”時時間解析不穩(wěn)定，Done 列 TODO 很多時滾動體驗差，篩選后狀態(tài)切換導致列表顯示異常；你需要說明如何定位問題、如何修改、如何驗證修復成功。

你還將收到一張參考 UI 截圖，請分析其布局、層級、配色、間距、組件關系，并高保真復刻該頁面，說明哪些部分完全復刻，哪些部分做工程化折中，然后基于截圖繼續(xù)修改代碼直到盡量接近。

不要只寫思路，必須給出可運行代碼、測試代碼、修復后的最終實現(xiàn)。

這不是一個能靠蠻干硬生生“寫”出來的任務。

開發(fā)一個 AI TODO Board，需實現(xiàn)三列看板（Todo、Doing、Done），支持自然語言創(chuàng)建 TODO 并自動提取標題、時間、優(yōu)先級、子任務，還要提供 AI Assistant 面板進行拆解建議和風險提示，支持搜索、篩選，輸出完整實現(xiàn)計劃、項目結構、核心代碼、測試代碼、修復過程說明。

傳統(tǒng)大模型在這種場景下，即使表面上能完成交付，也往往難以實際運行。但是 Qwen3.6-Plus 表現(xiàn)得像是一位非常老道的架構工程師和 UI 設計師。

1.全流程閉環(huán)開發(fā)，任務規(guī)劃與實時進展可視化

項目啟動階段，Qwen3.6-Plus 首先進行了需求拆解，精準把握 AI TODO Board 開發(fā)的核心技術，還制定了包含 16 個步驟的清晰實現(xiàn)計劃。從項目初始化、依賴安裝，到核心功能開發(fā)、測試編寫，再到問題修復，這套方案可以直接交給工業(yè)級軟件工程團隊去執(zhí)行，而且每一步均以可視化進度條實時呈現(xiàn)進展。

開發(fā)過程中，模型嚴格遵循軟件工程規(guī)范，像專業(yè)的開發(fā)團隊一樣，依次完成了從任務拆解到測試交付的全鏈路環(huán)節(jié)，不僅實現(xiàn)了測試用例全部通過，還針對移動端橫向溢出、時間解析不穩(wěn)定、滾動體驗差等核心問題進行系統(tǒng)性修復，確保項目從原型到成品的平穩(wěn)落地。

值得注意的是，在開發(fā)服務器啟動、本地部署等環(huán)節(jié) Qwen3.6-Plus 均一次成功，交付效率遠超常規(guī)開發(fā)流程。

2.代碼迭代與精準返修，工程化能力拉滿

在代碼實現(xiàn)階段，Qwen3.6-Plus 展現(xiàn)出扎實的技術功底與嚴謹?shù)拇a迭代邏輯。針對項目核心模塊，模型完成了從組件設計到狀態(tài)管理的全棧開發(fā)：

? 基于 Radix UI 與 shadcn/ui 搭建現(xiàn)代化 UI 組件庫，打造沉浸式暗色 SaaS 風格界面；

? 開發(fā)自然語言解析器，實現(xiàn)中英文時間、優(yōu)先級智能提取與子任務自動生成；

? 利用 Zustand 完成 TODO 狀態(tài)管理，支持拖拽流轉、搜索篩選、逾期提醒等全功能；

返修是軟件工程不可避免的環(huán)節(jié)，能否精準定位問題所在進行針對性修改，再完成驗證的閉環(huán)，是模型在工作級任務中會面對的真實考驗。在 AI TODO Board 的開發(fā)中，Qwen3.6-Plus 也有著不俗的表現(xiàn)。

移動端橫向溢出問題，通過調整容器寬度與布局屬性解決，優(yōu)化時間解析邏輯，統(tǒng)一使用 UTC 時間處理避免解析偏差，替換滾動組件提升 Done 列大數(shù)量場景的滾動體驗，重構篩選邏輯消除狀態(tài)切換后的顯示異?！?/span>

每一次修復均配套新增測試用例驗證，確保問題徹底解決且不引入新 bug。這些過程都是由模型自主完成，我看到的，只有開發(fā)日志里一行行清晰可追溯的記錄。

3.高保真 UI 復刻與功能全覆蓋，交付質量達標

原生多模態(tài)能力使得 Qwen3.6-Plus 能嚴格參考 UI 截圖完成高保真復刻，在布局層級、配色風格、組件交互上高度還原設計要求。

在功能層面，交付成果也完全覆蓋需求。應用支持自然語言輸入，可自動提取標題、解析時間，然后生成 3-5 個子任務且支持編輯；AI 助手面板提供拆解建議、風險提示等能力；搜索、優(yōu)先級篩選、逾期查看等實用功能也逐一實現(xiàn)。最終交付的項目，可直接本地部署運行，界面與功能均達到預期交付標準。

4.極致測試與問題閉環(huán)，質量把控體系完善

測試環(huán)節(jié)是模型交付的核心亮點之一。Qwen3.6-Plus 針對核心模塊編寫了全覆蓋測試用例，包括 23 個自然語言解析測試、14 個狀態(tài)管理與流程測試，全面驗證自然語言解析、TODO 創(chuàng)建、狀態(tài)切換、篩選邏輯等核心功能的穩(wěn)定性。

在修復環(huán)節(jié)，模型針對每一個暴露的問題均完成了 “定位 - 修改 - 驗證” 的全流程，新增邊緣測試用例確保修復效果的穩(wěn)定性，最終實現(xiàn)項目零核心 bug、測試全通過的高質量交付狀態(tài)。

當然，測試案例也暴露了 Qwen 3.6-Plus 不穩(wěn)定的一面。 在實測中我們觀察到了明顯短板：

? 首字延遲（TTFT）：免費預覽版首字出現(xiàn)時間有時高達11秒，在需要快速反饋的場景下會破壞開發(fā)者心流

? 偶發(fā)性輸出循環(huán)（Looping）：在極高復雜度任務中，模型有時會陷入重復輸出同一段內容的循環(huán)

? API頻率限制較嚴格：Rate Limit 在高頻Agent自動化任務中容易觸發(fā)，可能中斷長流程執(zhí)行

? 安全邊界能力不足：在安全相關任務（權限管理、加密實現(xiàn)）上成功率僅為43.3%，不建議在涉及高安全級別的自動化流程中單獨使用

但兩項測試完成后，一個感受仍然很清晰，Qwen 3.6-Plus 好像一支完整的團隊，在任務規(guī)劃、代碼迭代和問題精準修復上，表現(xiàn)出了工業(yè)級軟件工程的交付水準。

Agentic Coding 的工程高地

Qwen 3.6-Plus 的特別之處在于，雙線并行的格局首次在國產模型中出現(xiàn)。過往國產模型往往只在某一維度上突出，能寫代碼但決策弱，能規(guī)劃但執(zhí)行崩，但工業(yè)級 Agentic Coding 需要的恰恰是二者兼具。Qwen 3.6-Plus 做到了這一點，在編程智能體和復雜流程決策兩條戰(zhàn)線上同時逼近第一梯隊：

? Terminal-Bench 2.0：61.6分，超越Claude Opus 4.5（59.3），在shell操作、文件管理、進程控制等硬核終端任務上，它是目前最強的模型之一；

? Claw-Eval：58.7分，極接近Claude Opus 4.5（59.6），在真實世界多步Agent任務中進入第一梯隊；

? SWE-bench Verified：78.8%，處理大多數(shù)企業(yè)級Bug修復和代碼重構已綽綽有余；

? 成本：輸入￥2/M，輸出￥12/M，約為Claude的1/10；

這意味著什么？

在 Terminal 操控和工具調用上的領先，使 Qwen 3.6-Plus 成為了當前最適合丟進 OpenClaw 這類 Agent 框架中“跑起來”的國產模型。不是輔助寫代碼，它真的能做到像你的 AI 開發(fā)搭檔那樣，驅動產品長出來。在 Coding 賽道已經(jīng)成為一片紅海的今天，Qwen 3.6-Plus 再一次讓軟件開發(fā)的門檻降了一截。

從被調用的工具到執(zhí)行任務的參與者，當模型角色的這一轉型越發(fā)成為各大廠商的共識，我們看到阿里做出了自己的選擇。Qwen 3.6-Plus 的戰(zhàn)略定位并非全能型選手，更像是專攻 Agentic Coding 這一垂直場景的作品。背后的原因不難理解，當基礎模型的能力趨于同質化，能否在真實工程環(huán)境中自主完成任務已經(jīng)成為了最重要的競爭高地。

模型層，走向參數(shù)效率之爭

更值得注意之處在于，Qwen 3.6-Plus 在參數(shù)效率上表現(xiàn)出了顯著的優(yōu)勢。橫向對比，GLM-5、Kimi-K2.5 等模型的參數(shù)量均是其 2-3 倍。

用更少的參數(shù)實現(xiàn)更好的性能，這在大模型此前普遍以參數(shù)規(guī)模換智能水平的背景下，可以被視為一種全新的范式轉移。

比起小模型的“妥協(xié)”，一個越來越無法忽視的視角是，大模型的商業(yè)化正在重新定義 AI 性能的標準。模型訓練、推理一向以重投入的面目示人，也順理成章地成為了大模型商業(yè)化的瓶頸，而更高的參數(shù)效率會讓模型廠商在上述領域擁有寶貴的競爭力。

Benchmark 仍有意義，但今天單位成本下的有效智能更能說明問題。在當前的技術脈絡中，參數(shù)效率，已經(jīng)成為了模型規(guī)?；涞氐蔫€匙。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

0人收藏

梁丙鑒

編輯

發(fā)私信

當月熱門文章

「雙線實測」Qwen 3.6-Plus，Agentic Coding 已經(jīng)這么能「扛活兒」了？

核心實測——“雙線”考核：復雜決策 × Agentic Coding