DeepSeek-V4：華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

本文作者：梁丙鑒

2026-05-11 11:40

導(dǎo)語：交付質(zhì)量接近 Opus 4.6 非思考模式，與思考模式存在一定差距。?

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))訊越過數(shù)個(gè)發(fā)布窗口，4 月 24 日，DeepSeek 最新一代旗艦?zāi)Ｐ?DeepSeek-V4 終于正式發(fā)布。

此次發(fā)布的 DeepSeek-V4 主打百萬字超長(zhǎng)上下文，在 Agent 能力、世界知識(shí)和推理性能上均表現(xiàn)亮眼。有意思的是，4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式，外界一度猜測(cè)是 V4 的不同版本。這一猜測(cè)得到了官方確認(rèn)，按參數(shù)量大小，V4 此次同步推出了 pro 及 flash 兩個(gè)版本。

DeepSeek-V4：華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

相較于前代模型，V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評(píng)測(cè)中，已達(dá)到當(dāng)前開源模型最佳水平，且在其它 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。DeepSeek 內(nèi)部評(píng)測(cè)反饋顯示，DeepSeek-V4-Pro 使用體驗(yàn)優(yōu)于 Sonnet 4.5，交付質(zhì)量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知識(shí)推理類基準(zhǔn)測(cè)試中，DeepSeek V4 的表現(xiàn)均居于前列，特別是在ApexShortlist、Codeforces 兩項(xiàng)測(cè)試中分別以 90.2 和 3206 的成績(jī)登頂，表現(xiàn)出了頂級(jí)的推理性能和世界知識(shí)儲(chǔ)備。

價(jià)格方面，pro 版本和 flash 版本采取了階梯定價(jià)。更小更快的 flash 版本繼承了前代模型便宜大碗路線的，同時(shí) pro 版本的降價(jià)也被官方排上日程，預(yù)計(jì)會(huì)隨著今年下半年昇騰 950 超節(jié)點(diǎn)的批量上市實(shí)現(xiàn)大幅下調(diào)。

值得注意的是，DeepSeek-V4 針對(duì)昇騰等國(guó)產(chǎn)芯片進(jìn)行了深度適配，實(shí)現(xiàn)推理環(huán)節(jié)全面兼容，有傳聞稱利用率可達(dá) 85％以上。而據(jù)路透社報(bào)道，此前 DeepSeek 也拒絕向包括英偉達(dá)在內(nèi)的美國(guó)芯片制造商提供 V4 模型的早期訪問權(quán)限。

在美國(guó)對(duì)華出臺(tái)高端 GPU 禁令、限制技術(shù)交流的背景下，DeepSeek 選擇以技術(shù)對(duì)等的姿態(tài)回應(yīng)，和美方的脫鉤構(gòu)成了一種有趣的鏡像關(guān)系。而回到國(guó)內(nèi)，DeepSeek-V4 的背書證明了國(guó)產(chǎn)芯片足以支持第一梯隊(duì)大模型的推理部署，開始完成從“可用”到“好用”的跨越。同時(shí)被國(guó)產(chǎn)算力托住的 V4，也或可視為一個(gè)備戰(zhàn)“全華班模型生態(tài)”的起點(diǎn)。

架構(gòu)創(chuàng)新，破解模型推理“不可能三角”

DeepSeek-V4 的上下文窗口跨越式地來到了 100 萬 Token 大關(guān)，并宣稱這此后將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

據(jù)官方技術(shù)文檔介紹，這種長(zhǎng)文本能力的成熟源于 DeepSeek 開創(chuàng)的一種全新注意力機(jī)制，在 token 維度進(jìn)行壓縮，結(jié)合 DSA 稀疏注意力（DeepSeek Sparse Attention），此舉不僅實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力，并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。

DeepSeek 對(duì)長(zhǎng)文本能力的探索早有跡象。在 V4 遲遲沒有問世的時(shí)間里，DeepSeek 低調(diào)發(fā)布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》，和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》，被外界視為其在長(zhǎng)文本方面的有力技術(shù)儲(chǔ)備。

在長(zhǎng)文本推理任務(wù)中，大模型長(zhǎng)期存在著成本、速度、精度的不可能三角，但 Engram 架構(gòu)提供了一種破局思路。該架構(gòu)包含一個(gè)靜態(tài)知識(shí)檢索模塊，和一個(gè)動(dòng)態(tài)推理協(xié)同模塊，前者通過哈希查找機(jī)制，將事實(shí)性知識(shí)存儲(chǔ)在廉價(jià)的 CPU 內(nèi)存中，節(jié)省了對(duì)推理尤其寶貴的 GPU 顯存，后者負(fù)責(zé)判斷檢索到的記憶是否應(yīng)該調(diào)用，并在必要時(shí)將其無縫融入推理過程。

這種設(shè)計(jì)的本質(zhì)是將模型的記憶和計(jì)算分離，通過對(duì)信息存儲(chǔ)進(jìn)行更精細(xì)的分層管理，使大模型能用上廉價(jià)、大容量的 CPU 內(nèi)容，并確保 GPU 顯存“好鋼用在刀刃上”，在其擅長(zhǎng)的動(dòng)態(tài)并行計(jì)算中發(fā)揮出更大價(jià)值，最終在降低計(jì)算成本的同時(shí)保證關(guān)鍵信息不會(huì)丟失。其結(jié)果是當(dāng) MoE 的“專家”們?cè)龠M(jìn)行推理時(shí)，會(huì)像是配備了一位專門的助理，確保他們得到的信息及時(shí)、相關(guān)且準(zhǔn)確。

DeepSeek-V4 的另一項(xiàng)底層創(chuàng)新，是其在訓(xùn)練中使用的 mHC（流形約束超連接）技術(shù)。

V4 的參數(shù)總量達(dá)到了 1.6T，這種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練，本身就是一個(gè)富于挑戰(zhàn)的問題。傳統(tǒng)的 Transformer 架構(gòu)中，信息會(huì)在層層傳遞中呈指數(shù)級(jí)放大，模型參數(shù)量越大、層數(shù)越深，這種“信號(hào)爆炸”越嚴(yán)重，最終可能導(dǎo)致梯度爆炸，訓(xùn)練崩潰。

mHC 技術(shù)正是為解決“信號(hào)爆炸”現(xiàn)象提出，其核心思想是用嚴(yán)格的幾何約束來控制信息流動(dòng)，而不是放任自由連接。

這個(gè)防爆設(shè)計(jì)由三個(gè)環(huán)節(jié)組成。流形約束會(huì)把層間連接矩陣投影到雙隨機(jī)矩陣流形，強(qiáng)制規(guī)定每個(gè)節(jié)點(diǎn)的"輸入總和"和"輸出總和"必須守恒，具體的投影過程通過 Sinkhorn-Knopp 算法執(zhí)行，兩者共同把信號(hào)增益嚴(yán)格限制在合理倍數(shù)。最后的多流殘差設(shè)計(jì)在擴(kuò)展殘差流寬度的同時(shí)，通過非負(fù)約束避免信號(hào)相互抵消，既能增強(qiáng)模型表達(dá)能力，又兼顧了復(fù)雜度和穩(wěn)定性。

想象信息是一條奔騰的大河，多流殘差拓寬了河道，流形約束和 Sinkhorn-Knopp 算法就是一道道閘門，三者的配合保證了大規(guī)模訓(xùn)練時(shí)的信息洪流不會(huì)引發(fā)梯度爆炸。

而 mHC 技術(shù)更深刻的意義在于，它和 MoE 架構(gòu)、Engram 架構(gòu)等技術(shù)共同為后 Scaling Law 時(shí)代的大模型擴(kuò)展提供了一種可能的范式，也就是在參數(shù)規(guī)模、數(shù)據(jù)量的傳統(tǒng)維度之外，轉(zhuǎn)向追求更高的連接、參數(shù)和記憶效率。區(qū)別于前者的暴力美學(xué)，DeepSeek-V4 呈現(xiàn)了精致工程的魔力。

模型之爭(zhēng)的工程轉(zhuǎn)向

用流形約束防止信號(hào)爆炸的架構(gòu)理論創(chuàng)新得以落地，離不開算子融合、選擇性重計(jì)算、通信重疊等工程手段。參數(shù)量和穩(wěn)定性之間的沖突曾經(jīng)是制約大模型繼續(xù)擴(kuò)展的根本矛盾，而 mHC 技術(shù)對(duì)此的突破，建立在頂級(jí)的工程優(yōu)化之上。

Engram 架構(gòu)也有著類似的啟示。內(nèi)存訪問如何精準(zhǔn)配合 GPU 的計(jì)算過程，多級(jí)緩存需要什么樣的精細(xì)管理……Engram 架構(gòu)在 V4 上落地伴隨的種種工程挑戰(zhàn)，才是底層技術(shù)創(chuàng)新能否轉(zhuǎn)化為模型能力關(guān)鍵。

智能的使用應(yīng)有其邊界，記憶管理的精細(xì)程度直接影響模型性能，這一范式重新詮釋了對(duì)智能上限的追求。未來最聰明的模型，或許是最經(jīng)濟(jì)地界定了智能使用邊界的模型。

DeepSeek-V4 問世之后，我們和應(yīng)用爆發(fā)之間的距離或許又近了一大步。

原生多模態(tài)架構(gòu)、百萬 Token 上下文窗口紛紛走向成熟，背后是代碼、法律和金融等場(chǎng)景的巨大想象空間。而 V4 所展現(xiàn)的頂級(jí)工程能力，和模型智能迭代逐漸放緩的背景合流，更便宜、可得的智能產(chǎn)品也會(huì)不斷涌現(xiàn)。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章