日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

本文作者: 梁丙鑒   2026-05-11 11:40
導(dǎo)語:交付質(zhì)量接近 Opus 4.6 非思考模式,與思考模式存在一定差距。?

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))訊 越過數(shù)個(gè)發(fā)布窗口,4 月 24 日,DeepSeek 最新一代旗艦?zāi)P?DeepSeek-V4 終于正式發(fā)布。

此次發(fā)布的 DeepSeek-V4 主打百萬字超長(zhǎng)上下文,在 Agent 能力、世界知識(shí)和推理性能上均表現(xiàn)亮眼。有意思的是,4 月 8 日凌晨 DeepSeek 悄然上線了專家模式和快速模式,外界一度猜測(cè)是 V4 的不同版本。這一猜測(cè)得到了官方確認(rèn),按參數(shù)量大小,V4 此次同步推出了 pro 及 flash 兩個(gè)版本。

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

相較于前代模型,V4 的 Agent 能力有了大幅提高。DeepSeek-V4-Pro 在 Agentic Coding 評(píng)測(cè)中,已達(dá)到當(dāng)前開源模型最佳水平,且在其它 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。DeepSeek 內(nèi)部評(píng)測(cè)反饋顯示,DeepSeek-V4-Pro 使用體驗(yàn)優(yōu)于 Sonnet 4.5,交付質(zhì)量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

此外在 SimpleQA Verified、HLE 等知識(shí)推理類基準(zhǔn)測(cè)試中,DeepSeek V4 的表現(xiàn)均居于前列,特別是在ApexShortlist、Codeforces 兩項(xiàng)測(cè)試中分別以 90.2 和 3206 的成績(jī)登頂,表現(xiàn)出了頂級(jí)的推理性能和世界知識(shí)儲(chǔ)備。

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

價(jià)格方面,pro 版本和 flash 版本采取了階梯定價(jià)。更小更快的 flash 版本繼承了前代模型便宜大碗路線的,同時(shí) pro 版本的降價(jià)也被官方排上日程,預(yù)計(jì)會(huì)隨著今年下半年昇騰 950 超節(jié)點(diǎn)的批量上市實(shí)現(xiàn)大幅下調(diào)。

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

值得注意的是,DeepSeek-V4 針對(duì)昇騰等國(guó)產(chǎn)芯片進(jìn)行了深度適配,實(shí)現(xiàn)推理環(huán)節(jié)全面兼容,有傳聞稱利用率可達(dá) 85% 以上。而據(jù)路透社報(bào)道,此前 DeepSeek 也拒絕向包括英偉達(dá)在內(nèi)的美國(guó)芯片制造商提供 V4 模型的早期訪問權(quán)限。

在美國(guó)對(duì)華出臺(tái)高端 GPU 禁令、限制技術(shù)交流的背景下,DeepSeek 選擇以技術(shù)對(duì)等的姿態(tài)回應(yīng),和美方的脫鉤構(gòu)成了一種有趣的鏡像關(guān)系。而回到國(guó)內(nèi),DeepSeek-V4 的背書證明了國(guó)產(chǎn)芯片足以支持第一梯隊(duì)大模型的推理部署,開始完成從“可用”到“好用”的跨越。同時(shí)被國(guó)產(chǎn)算力托住的 V4,也或可視為一個(gè)備戰(zhàn)“全華班模型生態(tài)”的起點(diǎn)。


01

架構(gòu)創(chuàng)新,破解模型推理“不可能三角”


DeepSeek-V4 的上下文窗口跨越式地來到了 100 萬 Token 大關(guān),并宣稱這此后將是 DeepSeek 所有官方服務(wù)的標(biāo)配。

據(jù)官方技術(shù)文檔介紹,這種長(zhǎng)文本能力的成熟源于 DeepSeek 開創(chuàng)的一種全新注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),此舉不僅實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。

DeepSeek-V4:華為昇騰適配、性價(jià)比王者、最新底層技術(shù)

DeepSeek 對(duì)長(zhǎng)文本能力的探索早有跡象。在 V4 遲遲沒有問世的時(shí)間里,DeepSeek 低調(diào)發(fā)布的兩篇論文《mHC: Manifold-Constrained Hyper-Connections》,和兩周以后緊隨其后的《Engram: Conditional Memory via Scalable Lookup》,被外界視為其在長(zhǎng)文本方面的有力技術(shù)儲(chǔ)備。

在長(zhǎng)文本推理任務(wù)中,大模型長(zhǎng)期存在著成本、速度、精度的不可能三角,但 Engram 架構(gòu)提供了一種破局思路。該架構(gòu)包含一個(gè)靜態(tài)知識(shí)檢索模塊,和一個(gè)動(dòng)態(tài)推理協(xié)同模塊,前者通過哈希查找機(jī)制,將事實(shí)性知識(shí)存儲(chǔ)在廉價(jià)的 CPU 內(nèi)存中,節(jié)省了對(duì)推理尤其寶貴的 GPU 顯存,后者負(fù)責(zé)判斷檢索到的記憶是否應(yīng)該調(diào)用,并在必要時(shí)將其無縫融入推理過程。

這種設(shè)計(jì)的本質(zhì)是將模型的記憶和計(jì)算分離,通過對(duì)信息存儲(chǔ)進(jìn)行更精細(xì)的分層管理,使大模型能用上廉價(jià)、大容量的 CPU 內(nèi)容,并確保 GPU 顯存“好鋼用在刀刃上”,在其擅長(zhǎng)的動(dòng)態(tài)并行計(jì)算中發(fā)揮出更大價(jià)值,最終在降低計(jì)算成本的同時(shí)保證關(guān)鍵信息不會(huì)丟失。其結(jié)果是當(dāng) MoE 的“專家”們?cè)龠M(jìn)行推理時(shí),會(huì)像是配備了一位專門的助理,確保他們得到的信息及時(shí)、相關(guān)且準(zhǔn)確。

DeepSeek-V4 的另一項(xiàng)底層創(chuàng)新,是其在訓(xùn)練中使用 的 mHC(流形約束超連接)技術(shù)。

V4 的參數(shù)總量達(dá)到了 1.6T,這種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,本身就是一個(gè)富于挑戰(zhàn)的問題。傳統(tǒng)的 Transformer 架構(gòu)中,信息會(huì)在層層傳遞中呈指數(shù)級(jí)放大,模型參數(shù)量越大、層數(shù)越深,這種“信號(hào)爆炸”越嚴(yán)重,最終可能導(dǎo)致梯度爆炸,訓(xùn)練崩潰。

mHC 技術(shù)正是為解決“信號(hào)爆炸”現(xiàn)象提出,其核心思想是用嚴(yán)格的幾何約束來控制信息流動(dòng),而不是放任自由連接。

這個(gè)防爆設(shè)計(jì)由三個(gè)環(huán)節(jié)組成。流形約束會(huì)把層間連接矩陣投影到雙隨機(jī)矩陣流形,強(qiáng)制規(guī)定每個(gè)節(jié)點(diǎn)的"輸入總和"和"輸出總和"必須守恒,具體的投影過程通過 Sinkhorn-Knopp 算法執(zhí)行,兩者共同把信號(hào)增益嚴(yán)格限制在合理倍數(shù)。最后的多流殘差設(shè)計(jì)在擴(kuò)展殘差流寬度的同時(shí),通過非負(fù)約束避免信號(hào)相互抵消,既能增強(qiáng)模型表達(dá)能力,又兼顧了復(fù)雜度和穩(wěn)定性。

想象信息是一條奔騰的大河,多流殘差拓寬了河道,流形約束和 Sinkhorn-Knopp 算法就是一道道閘門,三者的配合保證了大規(guī)模訓(xùn)練時(shí)的信息洪流不會(huì)引發(fā)梯度爆炸。

而 mHC 技術(shù)更深刻的意義在于,它和 MoE 架構(gòu)、Engram 架構(gòu)等技術(shù)共同為后 Scaling Law 時(shí)代的大模型擴(kuò)展提供了一種可能的范式,也就是在參數(shù)規(guī)模、數(shù)據(jù)量的傳統(tǒng)維度之外,轉(zhuǎn)向追求更高的連接、參數(shù)和記憶效率。區(qū)別于前者的暴力美學(xué),DeepSeek-V4 呈現(xiàn)了精致工程的魔力。


02

模型之爭(zhēng)的工程轉(zhuǎn)向


用流形約束防止信號(hào)爆炸的架構(gòu)理論創(chuàng)新得以落地,離不開算子融合、選擇性重計(jì)算、通信重疊等工程手段。參數(shù)量和穩(wěn)定性之間的沖突曾經(jīng)是制約大模型繼續(xù)擴(kuò)展的根本矛盾,而 mHC 技術(shù)對(duì)此的突破,建立在頂級(jí)的工程優(yōu)化之上。

Engram 架構(gòu)也有著類似的啟示。內(nèi)存訪問如何精準(zhǔn)配合 GPU 的計(jì)算過程,多級(jí)緩存需要什么樣的精細(xì)管理……Engram 架構(gòu)在 V4 上落地伴隨的種種工程挑戰(zhàn),才是底層技術(shù)創(chuàng)新能否轉(zhuǎn)化為模型能力關(guān)鍵。

智能的使用應(yīng)有其邊界,記憶管理的精細(xì)程度直接影響模型性能,這一范式重新詮釋了對(duì)智能上限的追求。未來最聰明的模型,或許是最經(jīng)濟(jì)地界定了智能使用邊界的模型。

DeepSeek-V4 問世之后,我們和應(yīng)用爆發(fā)之間的距離或許又近了一大步。

原生多模態(tài)架構(gòu)、百萬 Token 上下文窗口紛紛走向成熟,背后是代碼、法律和金融等場(chǎng)景的巨大想象空間。而 V4 所展現(xiàn)的頂級(jí)工程能力,和模型智能迭代逐漸放緩的背景合流,更便宜、可得的智能產(chǎn)品也會(huì)不斷涌現(xiàn)。

雷峰網(wǎng)文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說