日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
芯片 正文
發(fā)私信給趙之齊
發(fā)送

0

成本下探30%,中科曙光IB產品沖擊RoCE性價比「護城河」

本文作者: 趙之齊   2026-03-18 15:32
導語:在RoCE和英偉達IB之外,高速網絡的第三個選項出現了。

智算集群的建設瓶頸,正在經歷轉移。

過去兩年,行業(yè)還聚焦在算力規(guī)模上,仿佛誰拿到了更多GPU,誰就掌握了AI競爭的入場券。但當萬卡集群逐漸落地,一個更隱蔽的瓶頸浮出水面:網絡。

中科曙光高級副總裁李斌算了這樣一筆賬:“原來以CPU為中心的計算單元,雙路的計算節(jié)點插一張網卡就夠了;現在以GPU為中心的計算節(jié)點,一臺機器要配八張甚至更多的網卡?!?/p>

由此算下來,如今網絡的用量相比以往的數據中心,提高了十到二十倍。

數量膨脹背后,智算集群也對網絡性能提出更苛刻的要求:

萬卡集群的訓練,需要網絡時延在納秒級內,且傳輸精度做到無損。而現實是,無論選擇英偉達主導的IB(InfiniBand)路線,還是運維復雜的RoCE路線,國內用戶都一定程度上“受制于人”

成本下探30%,中科曙光IB產品沖擊RoCE性價比「護城河」

正是這樣的背景下,中科曙光歷時三年推出國產原生IB架構高速網絡產品scaleFabric,試圖在智算網絡的咽喉要道上,占據一席之地。


IB和RoCE,二分天下?

隨著AI需求飆漲,行業(yè)已經逐漸發(fā)現,大規(guī)模計算系統(tǒng)的效率不等于系統(tǒng)的峰值算力,在集群實際運行中,接近一半的算力會被浪費掉。

也就是說,單卡算力再強,如果網絡無法在規(guī)定時間內完成數據交換,大部分算力只能在等待中被浪費。MFU(模型算力利用率)的天花板,很大程度上是由網絡決定的。

目前,萬卡集群高速互聯需求下,市場能滿足的技術路線主要有兩條:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是專為高性能計算設計的原生RDMA架構,后者則是基于以太網的RDMA技術方案。

過往,二者的場景和區(qū)別還比較涇渭分明:

IB性能卓越但價格昂貴,是超算和頂級AI集群的首選;RoCE成本較低,且互聯網廠商在CPU云時代便以以太網為基礎,成熟的運維體系也讓他們在智算時代更傾向于繼續(xù)沿用以太網路線。

然而,AI帶來算力需求爆發(fā)的當下,隨著智算集群規(guī)模從千卡邁向萬卡甚至十萬卡,RoCE的先天短板開始顯現——

IB交換機采用VCT交換,可實現“邊收邊轉”,交換時延可控制在300納秒以內;而RoCE交換機則采用“存儲-轉發(fā)”交換,需完整接收數據包后再轉發(fā),時延普遍在500納秒以上。

在流量控制機制上,IB采用基于信用的精細化流控,發(fā)送前會確認接收端資源,從根源避免丟包;RoCE依賴的PFC(Priority Flow Control)暫停機制則是粗粒度流控,容易出現丟包、PFC死鎖或風暴,必須依賴擁塞控制且需人工調優(yōu)水線。

盡管RoCE廠商在追趕IB的性能,但用戶也已經在“用腳投票”。例如,在感受到IB的性能優(yōu)勢后,微軟如今已開始將部分核心AI訓練業(yè)務從以太轉向了IB

然而,對于國內智算用戶而言,選擇IB同樣面臨困境:

英偉達一家獨大,采購價格高昂,且供貨周期和產品迭代并不穩(wěn)定。并且,英偉達在B300等最新芯片中已標配CX8網絡模塊,這意味著采購其芯片,往往就被強制綁定使用英偉達自家的IB網絡產品。

面對性能較遜色的RoCE與高價壟斷的IB,國產算力高速網絡需要一條新出路。


國產IB的正式突圍

中科曙光scaleFabric,試圖打破這一僵局。

這是國內首款全棧自研原生IB架構高速網絡產品:從底層的112G SerDes IP、交換芯片、網卡,到上層的交換機硬件和管理軟件,全是自主研發(fā)產品,歷時三年研發(fā)。

從公開的性能數據看,scaleFabric對標的是英偉達目前主流的NDR(指 400Gb/s InfiniBand 網絡)產品

性能層面,中國科學院計算技術研究所王展表示,通信層面上,曙光的產品基本上和英偉達在同一水平。其端到端通信時延在0.93微秒,交換機轉發(fā)時延260納秒,與英偉達NDR持平;單端口帶寬達到800G,較RoCE主流交換機領先一到兩代,整機交換容量64T;在典型AI訓練任務中,實測網絡效率提升40%以上。

可靠性層面,由于采用了原生IB的信用流控機制,scaleFabric實現了真無損網絡,避免了RoCE方案中常見的PFC風暴風險。曙光透露,該產品已在近萬卡規(guī)模的集群中持續(xù)穩(wěn)定運行超過10個月

當然,對用戶而言,最敏感的變量依然是成本。曙光透露,在同等規(guī)模集群中,scaleFabric的整體網絡成本較進口IB方案可降低約30%

這一價格優(yōu)勢一旦被驗證,RoCE賴以生存的“性價比護身符”將受到巨大沖擊。

不過,這套國產IB產品的誕生也并非坦途。

中科曙光高速網絡互聯產品部總工程師萬偉直言,研發(fā)中的第一個難點是鏈路技術:起初大家想買現成的IB方案,但是根本不符合要求,最后只能招團隊從零做起。

其次,在目標設定上,團隊并非簡單對標英偉達IB,而是立志在關鍵規(guī)格上實現超越,這也帶來了巨大的技術挑戰(zhàn)。萬偉感慨,所幸團隊最終在國家的支持下得以攻克難關、取得成功。

李斌補充說,當前業(yè)界存在RoCE、ScaleOut、ScaleUP等多種技術路線,百花齊放,而曙光的選擇是在原生RDMA架構基礎上,為超大規(guī)模系統(tǒng)上的性能和擴展性做深度考量。

他對市場競爭格局有清醒的判斷:“目前這個市場的主要玩家還是英偉達。我們對于產品的定位,是期待在IB的技術路線能實現技術上的國產化替代,實現業(yè)務上真正的市場占比替代。我們希望打破一家獨大的局面,把整個技術做開放,市場的蛋糕大家共享?!?/p>

盡管英偉達的領先地位短期難以撼動,但國產IB的突破,已為智算網絡自主之路點亮希望。

雷峰網(公眾號:雷峰網)雷峰網


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

作者

關注算力、AI及相關IR話題等。微信:Ericazhao23。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說