日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給楊依婷
發(fā)送

0

DeepSeek V4首發(fā)適配背后:昇騰為什么堅持不做CUDA兼容層?

本文作者: 楊依婷   2026-04-28 14:16
導語:放棄兼容CUDA捷徑,昇騰用自主生態(tài)改寫競爭邏輯。

AI行業(yè)的節(jié)奏正在變得越來越快。

從去年的大模型,到今年Agent的集中爆發(fā),技術(shù)熱點在持續(xù)切換。但在表層變化之下,有一個趨勢幾乎沒有發(fā)生改變:模型規(guī)模與使用強度的提升,正在持續(xù)推高對算力的需求。

當模型規(guī)模、調(diào)用頻率與應(yīng)用復雜度同時增長,單純依賴算力堆疊已經(jīng)難以為繼。

在這種局面下,開發(fā)者天然希望找到一套已經(jīng)經(jīng)過驗證、能覆蓋全鏈路的成熟體系。這正是CUDA生態(tài)在過去十幾年建立起來的護城河:它不僅提供了算力,更定義了從編程到部署的一整套標準。

也正是在這樣的背景下,一個更現(xiàn)實的問題開始浮出水面:當CUDA生態(tài)已經(jīng)形成穩(wěn)定閉環(huán),后來者的路徑到底是什么?是盡可能兼容,以降低遷移成本;還是從底層出發(fā),建立一套不依附既有體系的新結(jié)構(gòu)?

華為張良給出了他的答案,他在分享會上反復強調(diào):如果底層結(jié)構(gòu)不改變,上層生態(tài)就很難真正建立。

這意味著,當前這場競爭,已經(jīng)不只是算力性能的比較,而是一次圍繞“體系”的重構(gòu)。

DeepSeek V4首發(fā)適配背后:昇騰為什么堅持不做CUDA兼容層?

為什么“繼續(xù)優(yōu)化”已經(jīng)不夠了?

在AI基礎(chǔ)設(shè)施發(fā)展的早期階段,“能不能跑起來”曾經(jīng)是最核心的判斷標準。

但隨著大模型進入工程化與規(guī)?;A段,這一標準迅速變得不再充分。系統(tǒng)的瓶頸,開始從“單點能力不足”,轉(zhuǎn)向“整體鏈路是否匹配真實負載”。

張良在回顧昇騰早期發(fā)展時,并沒有回避這一點。他提到,“2018年CANN剛發(fā)布時,我們知道CANN和硬件都是不完美的”。

那一階段屬于典型的“可運行但未成熟”狀態(tài),行業(yè)的關(guān)注點更多集中在框架對比、性能指標等表層問題,而真正決定長期能力的底層結(jié)構(gòu),并沒有被充分展開。

面對大模型時代的新負載——長序列帶來的訪存壓力、低精度訓練成為主流,以及MoE等復雜模型架構(gòu)的涌現(xiàn),昇騰急需解決編程模型不夠靈活、訪存粒度無法適配、低精度支持缺失等問題。

這些問題無法通過軟件優(yōu)化或算子補丁徹底解決,只能在芯片和系統(tǒng)底層重新設(shè)計。

轉(zhuǎn)折發(fā)生在近兩年。

按照張良的說法,從2025年開始,昇騰團隊“痛下決心”,不再圍繞局部問題進行修補,而是回到一個更根本的判斷:如果底層結(jié)構(gòu)不改變,上層生態(tài)就不可能真正建立。

在最新一代昇騰950芯片中,這種調(diào)整體現(xiàn)在多個方面:編程模型更接近主流并行計算范式,降低開發(fā)遷移成本;數(shù)據(jù)訪問引入更細粒度訪存機制,以減少大模型場景下的無效帶寬消耗;同時提前支持FP8等低精度計算,以提升吞吐并支撐更大模型規(guī)模。

張良提到:“有客戶在測試不到一周后,就直接做出了下單決策?!?/p>

與此同時,昇騰在架構(gòu)路徑上也做出了一個關(guān)鍵選擇。在專用加速芯片逐漸興起的背景下,針對特定場景進行深度優(yōu)化,往往可以獲得更高的短期效率。

但張良明確表示,團隊并沒有沿著這一路徑繼續(xù)推進,而是堅持通用架構(gòu)方向。原因在于,如果系統(tǒng)能力被限定在特定場景中,就很難形成外溢,也無法支撐多樣化應(yīng)用的持續(xù)增長。

這一選擇意味著,昇騰并不只是試圖把模型“跑得更快”,而是在解決一個更長期的問題:當模型不斷變化、負載持續(xù)增長、開發(fā)范式不斷演進時,這套系統(tǒng)是否仍然能夠承載這些變化。

DeepSeek V4首發(fā)適配背后:昇騰為什么堅持不做CUDA兼容層?

為什么不能“做一個CUDA兼容層”?

如果說底層結(jié)構(gòu)決定了一套系統(tǒng)“能做到什么”,那么生態(tài)則決定了“有沒有人愿意在上面繼續(xù)做”。

在當前AI基礎(chǔ)設(shè)施格局中,CUDA已經(jīng)不僅是一套技術(shù)方案,而是一整套高度穩(wěn)定的開發(fā)體系。從編程模型、工具鏈到社區(qū)與人才結(jié)構(gòu),它所形成的,不只是功能層面的能力,更是一種“默認可用”的環(huán)境。

對于后來者而言,最直接的路徑,是盡可能向這一體系靠攏——通過接口兼容與生態(tài)復用,降低開發(fā)者的遷移門檻。

這是一條現(xiàn)實且常見的路徑,但昇騰并沒有選擇沿著它走下去。

張良給出的判斷非常直接:“如果基于CUDA來做,那我們做的一切生態(tài)發(fā)展,都無法徹底自主?!?/p>

這句話所指向的,并不只是技術(shù)路線之爭,而是一個更底層的問題:如果核心體系建立在他人的標準之上,那么無論投入多少工程資源,最終強化的仍然是原有系統(tǒng),而不是自身能力。

進一步看,這種依附關(guān)系還意味著技術(shù)演進主動權(quán)的缺失。張良提到,“一旦出現(xiàn)危機的時刻,這一套體系做不到,你的特性在里面就沒了。”

這里的“特性”,不僅是具體功能,也包括體系能夠持續(xù)演進的空間。如果關(guān)鍵能力受限于既有框架,那么新的特性就很難真正落地,更難形成長期積累。

在這一判斷之下,昇騰選擇了一條更復雜但更具獨立性的路徑:在底層體系上堅持自研,在上層生態(tài)上盡可能對齊主流。

這意味著,在虛擬指令集、編譯器以及運行時等關(guān)鍵環(huán)節(jié),昇騰不依賴既有標準,而是構(gòu)建自己的實現(xiàn);而在開發(fā)接口與使用方式上,則主動適配主流框架,使開發(fā)者可以在熟悉的環(huán)境中使用這套系統(tǒng)。

這種“分層處理”的方式,本質(zhì)上是在控制權(quán)與使用門檻之間尋找平衡:既不完全依附,也不讓開發(fā)者從零開始。

但這條路徑的難度,很快體現(xiàn)在實際推進過程中。

在主流開源框架中,新硬件往往只能以插件形式接入,難以進入主干體系。

張良提到,昇騰最初面對的正是這樣的情況——對方并不直接接納,而是建議“你們可以自己做插件”。這意味著,生態(tài)上的“可用”與“被認可”之間,仍然存在明顯距離。

昇騰的做法,是持續(xù)參與開源社區(qū):提交代碼、對齊規(guī)范,并通過工程實踐驗證自身實現(xiàn)的穩(wěn)定性。在這個過程中,關(guān)系逐漸發(fā)生變化,從最初的外部適配,轉(zhuǎn)向更深層的協(xié)同。

例如在Triton中實現(xiàn)后端支持,在PyTorch Foundation體系中建立起持續(xù)集成流程,使平臺能夠跟隨主版本演進保持同步。這些變化的意義,在于昇騰不再只是“接入生態(tài)”,而是開始參與生態(tài)本身的構(gòu)建。

與此同時,生態(tài)建設(shè)也被進一步轉(zhuǎn)化為可量化的工程問題。

張良提到,昇騰對開源軟件的支持能力、以及開源軟件對昇騰特性的支持程度,被細化為特性支持率、模型適配率、CI覆蓋率等一系列指標,“要求必須維持在95%以上”。

在模型側(cè),昇騰也在推進類似的覆蓋能力。

昇騰已在DeepSeek V4發(fā)布當天實現(xiàn)全系列適配,950超節(jié)點推理時延低至10~20ms,并通過PyPTO編程范式將算子開發(fā)周期縮短至天級。

不過,這一路徑并非沒有不確定性。

在一個已經(jīng)高度收斂的生態(tài)體系中,新的平臺不僅要補齊能力,還需要在時間上追趕。這不僅是技術(shù)問題,更是節(jié)奏問題:當主流框架持續(xù)快速迭代時,新體系是否能夠長期保持同步,并逐步建立自身影響力,仍然取決于持續(xù)的工程投入與社區(qū)協(xié)同。

也正是在這一意義上,“做一個CUDA兼容層”之所以沒有被選擇,是因為它無法回答一個更關(guān)鍵的問題——當生態(tài)演進發(fā)生變化時,這套體系是否仍然擁有自己的位置與空間。

Agent是新范式,還是“生態(tài)未成熟的補丁”?

在傳統(tǒng)AI工程體系中,開發(fā)過程高度依賴人工經(jīng)驗。

從算子實現(xiàn)到性能調(diào)優(yōu),每個環(huán)節(jié)都需要工程師深入理解硬件、反復調(diào)試。這種模式在早期復雜度較低時尚可應(yīng)對,但隨著模型規(guī)模擴大、系統(tǒng)鏈路拉長,人的處理能力開始成為效率瓶頸。

昇騰的應(yīng)對方式,不是繼續(xù)在工具層面做優(yōu)化,而是引入新的執(zhí)行主體——Agent。

最直接的變化出現(xiàn)在算子開發(fā)環(huán)節(jié):過去手寫算子需要深入硬件、反復調(diào)試,現(xiàn)在開發(fā)者只需描述設(shè)計意圖,Agent就可以自動完成環(huán)境配置并生成代碼。開發(fā)起點從“如何實現(xiàn)”轉(zhuǎn)向“要實現(xiàn)什么”。

圍繞這一思路,昇騰將Agent擴展到更完整的流程——從模型檢索、適配、量化,到遷移、優(yōu)化與部署,原本分散的步驟被整合為一條連續(xù)路徑。

張良給出的目標是:“一分鐘找到模型,一小時驗證,一天完成部署?!眽嚎s的不只是時間,更是試錯成本與迭代周期。

支撐這一體系的,是“Skill”——一種標準化的能力單元,它將專家經(jīng)驗、調(diào)優(yōu)方法以及工程流程以模塊化方式沉淀下來,供Agent直接調(diào)用組合。

這意味著,原本依附于個體經(jīng)驗的能力,開始被轉(zhuǎn)化為系統(tǒng)的一部分。開發(fā)者不再需要從零構(gòu)建流程,而是通過定義目標與約束,讓系統(tǒng)完成大部分執(zhí)行工作。

在標準化程度較高、路徑清晰的任務(wù)中,Agent可以顯著提升效率。但張良坦言,在“最深層次的復雜問題”上,當前Agent的能力“還不是那么強”,仍然離不開工程師的深度參與。

這使得Agent呈現(xiàn)出一種過渡性特征:一方面,它確實在改變開發(fā)節(jié)奏,使原本以天甚至周為單位的流程被壓縮到小時級;另一方面,它也在承擔一層“緩沖”的角色——在生態(tài)尚未完全成熟、底層差異仍然存在的情況下,通過自動化能力降低使用門檻。

這也引出一個更深遠的問題:Agent所帶來的,是一種長期穩(wěn)定的新范式,還是在體系尚未完善時的過渡機制?答案或許取決于Skill的沉淀速度和底層差異的收斂程度。但無論如何,它在當下已經(jīng)實實在在地改變了開發(fā)節(jié)奏。

回到最初的問題:當CUDA已經(jīng)成為事實標準,后來者是否還有空間?

從昇騰這一路徑來看,它給出的答案,并不是正面替代,也不是簡單兼容,而是試圖在既有體系之外,構(gòu)建一套可以獨立運轉(zhuǎn)的結(jié)構(gòu),讓這套系統(tǒng)在不依賴既有生態(tài)的情況下,仍然具備自洽能力。

當然,這一選擇仍然處在進行時之中。生態(tài)能否持續(xù)積累、與主流框架的協(xié)同能否長期穩(wěn)定、開發(fā)方式的變化能否真正沉淀為工程能力,這些都需要時間來驗證。

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說