智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

本文作者：梁丙鑒

2026-04-24 19:01

導(dǎo)語(yǔ)：包括海光、沐曦、華為昇騰、摩爾線程（FP8）、昆侖芯、平頭哥真武、天數(shù)、英偉達(dá)（FP8）等。

雷峰網(wǎng)訊 DeepSeek今日發(fā)布了DeepSeek-V4-Pro 1.6T 旗艦?zāi)Ｐ?1.86萬(wàn)億參數(shù)）及DeepSeek-V4-Flash 284B 高效模型（2840億）。由智源研究院牽頭研發(fā)的眾智FlagOS第一時(shí)間對(duì)兩個(gè)“巨無(wú)霸”模型進(jìn)行全量適配，已經(jīng)完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量適配與推理部署，包括海光、沐曦、華為昇騰、摩爾線程（FP8）、昆侖芯、平頭哥真武、天數(shù)、英偉達(dá)（FP8）等芯片。FlagOS 同時(shí)正在推進(jìn) DeepSeek-V4-Pro 模型在多個(gè)芯片的遷移適配，后續(xù)即將開源。

首先完成在八款芯片適配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列兩大模型之一，采用混合專家（MoE）架構(gòu)，總參數(shù)量 284B，激活參數(shù)僅 13B，支持 100 萬(wàn) token上下文長(zhǎng)度。該模型在架構(gòu)上引入了混合注意力機(jī)制（結(jié)合壓縮稀疏注意力CSA與高度壓縮注意力HCA，大幅提升長(zhǎng)上下文效率）、流形約束超連接（mHC，增強(qiáng)跨層信號(hào)傳播穩(wěn)定性）以及 Muon優(yōu)化器（加速收斂、提升訓(xùn)練穩(wěn)定性）。預(yù)訓(xùn)練數(shù)據(jù)超過(guò)32Ttoken，后訓(xùn)練采用兩階段范式——先通過(guò) SFT和GRPO強(qiáng)化學(xué)習(xí)獨(dú)立培養(yǎng)領(lǐng)域?qū)＜?，再通過(guò)在線策略蒸餾將多領(lǐng)域能力統(tǒng)一整合到單一模型中。在最大推理力度模式（Flash-Max）下，給予更大思考預(yù)算使其推理能力可接近Pro版本水平；受限于參數(shù)規(guī)模，在純知識(shí)類任務(wù)和最復(fù)雜的Agent工作流上略遜于 Pro。整體性能參考如下官方評(píng)測(cè)結(jié)果：

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

圍繞DeepSeek-V4-Flash多芯適配，此次FlagOS系統(tǒng)軟件技術(shù)棧突破了三大關(guān)鍵技術(shù)：FlagGems全算子替代（實(shí)現(xiàn)多芯片統(tǒng)一適配）、為o-group采用獨(dú)立張量并行策略解鎖更多低顯存場(chǎng)景、以及“FP4+FP8混合精度”的原生權(quán)重到 FP8/BF16 的精度路徑轉(zhuǎn)換。當(dāng)下國(guó)內(nèi)出貨的AI芯片，都沒(méi)有FP4的支持。英偉達(dá)也只有在Blackwell及之后的高端芯片才支持FP4。這三項(xiàng)關(guān)鍵技術(shù)，使得DeepSeekV4能夠在當(dāng)前各種廠商的主流AI芯片上穩(wěn)定運(yùn)行，而非僅限于支持 FP4 和大顯存的少數(shù)高端AI加速卡。

三大技術(shù)突破：為什么對(duì)支持多種AI芯片十分重要

突破一：FlagGems 提供支持8種以上芯片的全算子替代——真正意義上的跨芯方案

本次 DeepSeek-V4-Flash 的適配，F(xiàn)lagGems 實(shí)現(xiàn)了模型推理鏈路中全部算子的替代。這意味著什么？

徹底脫離 CUDA 算子依賴：DeepSeek-V4-Flash的 MoE 專家調(diào)度、Attention 計(jì)算、RMSNorm、TopK 路由等全部核心計(jì)算模塊，均由 FlagGems 基于 Triton/Triton-TLE語(yǔ)言重新實(shí)現(xiàn)，不調(diào)用任何 cuDNN/cuBLAS 等NVIDIA私有庫(kù)。

無(wú)需芯片廠商逐一適配：傳統(tǒng)模式下，每款新模型上線，芯片廠商需要投入工程團(tuán)隊(duì)做算子適配?，F(xiàn)在通過(guò)FlagGems+FlagTree編譯器的組合，新模型的算子可以直接編譯到多款芯片后端，芯片廠商不需要做任何額外工作。

新算子即時(shí)可用：DeepSeek-V4-Flash引入的新計(jì)算模式（如 o-group 相關(guān)的分組路由機(jī)制），F(xiàn)lagGems 已經(jīng)實(shí)現(xiàn)了對(duì)應(yīng)的新算子，并通過(guò) FlagTree 編譯器統(tǒng)一編譯到所有支持的芯片后端。

FlagGems 作為全球最大的 Triton 單一算子庫(kù)，已擁有超過(guò)400 個(gè)大模型常用算子，并已正式進(jìn)入 PyTorch 基金會(huì)生態(tài)合作項(xiàng)目。在 40 個(gè)主流模型上，推理任務(wù)算子覆蓋度達(dá)到 90%~100%，完整支持 DeepSeek-V4-Flash的全部計(jì)算需求。

突破二：為o-group采用獨(dú)立并行策略——解除張量并行最多單機(jī)8卡限制

DeepSeek-V4-Flash為了進(jìn)一步降低計(jì)算開銷采用了分組輸出投影技術(shù)（Grouped Output Projection），配置為o-group=8，這導(dǎo)致在傳統(tǒng)的張量并行時(shí)候，最多切8份。而當(dāng)前一些主流國(guó)產(chǎn)芯片的單卡顯存為 32GB 或 64GB，尤其在BF16格式情況下，需要張量并行大于8份才能放的下。為了解除這個(gè)限制，F(xiàn)lagOS專門針對(duì)o-groups進(jìn)行了單獨(dú)張量并行策略設(shè)計(jì)和實(shí)現(xiàn)，確保o-groups切分不超過(guò)8份的前提下，能夠讓模型其他部分還采用經(jīng)典的張量并行策略，并且實(shí)現(xiàn)超過(guò)8份的切分。通過(guò)不同的張量并行策略組合，能夠?qū)崿F(xiàn)多于8臺(tái)設(shè)備的張量并行運(yùn)行。

FlagOS 團(tuán)隊(duì)對(duì)o-group張量并行改動(dòng)有：

獨(dú)立的并行策略：獨(dú)立于已有的張量并行通信組之外，為o-group單獨(dú)構(gòu)建所需要的張量并行通信組，確保其他模型結(jié)構(gòu)張量并行切分超過(guò)8的情況下，o-group的張量并行在8以內(nèi)。

參數(shù)轉(zhuǎn)換調(diào)整：對(duì)o-group相關(guān)的參數(shù)，也進(jìn)行了對(duì)應(yīng)單獨(dú)的張量并行切分處理，以確保在新的獨(dú)立張量并行策略下，也能夠被正確加載。

覆蓋面擴(kuò)展：這一優(yōu)化能夠?qū)?DeepSeek-V4-Flash在單獨(dú)采用張量并行策略下，將可運(yùn)行芯片范圍從"僅限單機(jī)80GB以上顯存的個(gè)別高端卡"擴(kuò)展到"多機(jī)64GB/32GB的更多主流國(guó)產(chǎn)芯片"，包括海光、沐曦、天數(shù)智芯等廠商的主力產(chǎn)品線。

突破三：從“FP4+FP8混合精度” 到 BF16的精度轉(zhuǎn)換——打通主流芯片的計(jì)算路徑

DeepSeek-V4-Flash模型發(fā)布時(shí)首次采用 FP4+FP8混合精度，該精度只有在Blackwell及之后的英偉達(dá)最新硬件上才有支持，但當(dāng)前所有國(guó)內(nèi)非英偉達(dá) AI 芯片都未能支持，只有摩爾線程原生支持了FP8，其余依然以BF16為主。

FlagOS 完成了從 FP4 到 BF16 的完整精度轉(zhuǎn)換：

權(quán)重反量化：將 FP4 量化權(quán)重轉(zhuǎn)換為 BF16 格式。這不是簡(jiǎn)單的類型轉(zhuǎn)換，而是需要根據(jù) DeepSeek 的量化方案進(jìn)行逆量化計(jì)算，確保數(shù)值精度。

計(jì)算路徑重建：FP4 和 BF16 在底層計(jì)算上有本質(zhì)差異——FP4 的動(dòng)態(tài)范圍更窄，累加精度、溢出處理策略均不同。FlagOS 對(duì)推理鏈路中的 GEMM、Attention、MoE 路由等關(guān)鍵計(jì)算節(jié)點(diǎn)逐一適配了 BF16 路徑。

精度對(duì)齊驗(yàn)證：經(jīng)過(guò)標(biāo)準(zhǔn)評(píng)測(cè)集驗(yàn)證，BF16 版本與 FP4 原生版本在核心能力指標(biāo)上保持對(duì)齊，確保精度轉(zhuǎn)換不引入業(yè)務(wù)層面的效果損失。

本次，F(xiàn)lagOS推出了FP8和BF16兩種適配版本，讓DeepSeek-V4-Flash不再是"只有最新 NVIDIA 卡才能跑"的模型，而是真正可以部署在 FP8 及 BF16 生態(tài)的主流國(guó)產(chǎn)芯片上。

FlagGems開源高性能新算子全面支持 DeepSeek-V4-Flash

本次新發(fā)布的DeepSeek-V4-Flash共有大約67個(gè)算子，F(xiàn)lagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個(gè)新算子，實(shí)現(xiàn)了對(duì)DeepSeek-V4-Flash的全面支持，也為跨芯適配打下重要基礎(chǔ)。

FlagGems 支持 DeepSeek-V4-Flash 新算子的性能對(duì)比

為了支持更多AI芯片的使用，F(xiàn)lagOS對(duì)DeepSeek-V4-Flash中使用的新算子使用Triton語(yǔ)言進(jìn)行重新實(shí)現(xiàn)，基于FlagTree統(tǒng)一編譯器，性能全部超過(guò)原生性能。

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

C++ Wrapper技術(shù)是FlagOS技術(shù)社區(qū)專門為提升基于Triton語(yǔ)言的算子內(nèi)核調(diào)用效率而打造的技術(shù)。目前已經(jīng)支持了該技術(shù)的芯片包括華為昇騰、寒武紀(jì)、摩爾線程、平頭哥真武、及英偉達(dá)等。使用了C++ Wrapper技術(shù)，在普通的Transformers框架下，可以顯著提升使用了Triton算子的模型的端到端效率，實(shí)現(xiàn)跨芯普適、和高效推理的雙重目標(biāo)。通過(guò)端到端效果評(píng)測(cè)（NV H20，DeepSeek-V4-Flash FP8），C++ Wrapper + Triton 比 TileLang 快11%，比 Python Wrapper 版快 39%。

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

開發(fā)者極致體驗(yàn)："發(fā)布即多芯" + "極簡(jiǎn)部署"

1. 核心能力與原生版本對(duì)齊

經(jīng) GPQA_Diamond、AIME等權(quán)威評(píng)測(cè)集驗(yàn)證，F(xiàn)lagOS 適配后的 DeepSeek-V4-Flash，在語(yǔ)言理解、復(fù)雜推理、代碼生成、數(shù)學(xué)計(jì)算等核心能力上，與 CUDA 原生版本對(duì)齊，可放心應(yīng)用于金融、教育、政企服務(wù)、代碼開發(fā)等場(chǎng)景，無(wú)需擔(dān)心適配導(dǎo)致業(yè)務(wù)效果折損。

評(píng)測(cè)數(shù)據(jù)：

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

注：本測(cè)試結(jié)果僅用于對(duì)遷移前（Nvidia-Origin）和遷移后（-FlagOS）版本的互相對(duì)齊驗(yàn)證，并不代表 DeepSeek 模型的官方性能，DeepSeek 模型的官方性能以 DeepSeek 官方公布數(shù)據(jù)為準(zhǔn)。

2. 極簡(jiǎn)部署：開箱即用，底層優(yōu)化無(wú)感知

FlagOS 將核心算子庫(kù)、編譯器等技術(shù)組件前置內(nèi)置到 DeepSeek-V4-Flash代碼框架中，開發(fā)者加載模型時(shí)，底層優(yōu)化代碼自動(dòng)生效，無(wú)需手動(dòng)添加任何 FlagOS 初始化代碼。同時(shí)，基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本，標(biāo)準(zhǔn)化 Docker 鏡像 + 一鍵加速命令，解決了開發(fā)者最頭疼的環(huán)境配置、效果對(duì)齊、性能優(yōu)化等問(wèn)題。

FlagOS 2.0 技術(shù)底座：從大模型到智能體時(shí)代的全棧升級(jí)

DeepSeek-V4-Flash的三重突破，依托的是 FlagOS 2.0 統(tǒng)一多芯片系統(tǒng)軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層，全鏈路為大模型跨芯適配提供技術(shù)支撐，將原本數(shù)周的適配周期縮短至數(shù)天，真正實(shí)現(xiàn)極速落地。

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實(shí)現(xiàn)三重技術(shù)突破

FlagOS：面向多種 AI 芯片的系統(tǒng)軟件棧

1. 高性能算子庫(kù) FlagGems：核心算子深度適配，釋放硬件算力

FlagGems 作為 FlagOS 核心的高性能通用大模型算子庫(kù)，基于 Triton 語(yǔ)言實(shí)現(xiàn)，針對(duì) DeepSeek-V4-Flash推理鏈路的核心算子進(jìn)行了深度適配與優(yōu)化，包括 MoE 專家調(diào)度、Attention 計(jì)算、RMSNorm 等關(guān)鍵計(jì)算模塊，同時(shí)原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數(shù)等接近 20 家 AI 芯片。

2. 統(tǒng)一 AI 編譯器 FlagTree：一次編寫，多芯編譯

FlagTree 是 FlagOS 面向多 AI 芯片后端的統(tǒng)一編譯器，基于 Triton 深度定制，可將 DeepSeek-V4-Flash的核心算子編譯為英偉達(dá)、摩爾線程等十多種不同 AI 芯片后端可識(shí)別的指令，徹底解決不同芯片編譯器生態(tài)割裂的問(wèn)題，大幅降低算子跨芯片適配的開發(fā)成本。

3. 模型跨芯遷移發(fā)布工具 FlagRelease：半自動(dòng)實(shí)現(xiàn)模型跨芯遷移與版本發(fā)布

依托 FlagOS 全棧技術(shù)能力，F(xiàn)lagRelease 已完成 DeepSeek-V4-Flash在多種芯片上的模型遷移、精度對(duì)齊與版本發(fā)布，覆蓋 HuggingFace、魔搭等開源社區(qū)平臺(tái)。開發(fā)者可直接下載使用，無(wú)需自行遷移。截至本文發(fā)布，F(xiàn)lagRelease 已發(fā)布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個(gè)開源模型實(shí)例的跨芯適配版本。

4. 統(tǒng)一多芯片接入插件 vLLM-plugin-FL：無(wú)縫兼容原生使用習(xí)慣

vLLM-plugin-FL是 FlagOS 為 vLLM 推理服務(wù)框架打造的專屬插件，基于 FlagOS 統(tǒng)一多芯片后端開發(fā)，在完全不改變 vLLM 原生接口與用戶使用習(xí)慣的前提下，實(shí)現(xiàn)多芯片推理部署。目前 vLLM-plugin-FL 已經(jīng)支持了英偉達(dá)、摩爾線程、海光、沐曦、平頭哥真武、天數(shù)智芯、昆侖芯、華為等多家芯片。

開源共建：FlagOS持續(xù)做開發(fā)者的“跨芯適配后盾”

當(dāng)下，"異構(gòu)算力協(xié)同、大模型普惠落地"已成為全球開源開發(fā)者社區(qū)的核心熱點(diǎn)，打破硬件生態(tài)隔離、讓大模型在不同算力平臺(tái)高效低成本運(yùn)行，是無(wú)數(shù)開發(fā)者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術(shù)基因，始終以開發(fā)者為中心，通過(guò)全棧開源的統(tǒng)一系統(tǒng)軟件棧，把復(fù)雜的"M×N"硬件適配問(wèn)題降維為"M+N"，做每一位開發(fā)者最可靠的跨芯適配后盾。

目前，F(xiàn)lagOS 已形成完整的開源技術(shù)體系，所有核心組件均已開源在 GitHub，同時(shí)開放了數(shù)十款最新的主流基礎(chǔ)大模型、十多款 AI 芯片的適配方案與最佳實(shí)踐，開發(fā)者可自由獲取、深度定制：

四大核心技術(shù)庫(kù)： FlagGems 通用大模型算子庫(kù)、FlagTree 統(tǒng)一 AI 編譯器、FlagScale 訓(xùn)練推理并行框架、FlagCX 統(tǒng)一通信庫(kù)，覆蓋算子開發(fā)、編譯優(yōu)化、并行計(jì)算、跨芯片通信全鏈路；

三大開源工具平臺(tái)： FlagRelease 大模型自動(dòng)遷移發(fā)版平臺(tái)、KernelGen 算子自動(dòng)生成工具、FlagPerf 多芯片評(píng)測(cè)工具，提供從模型適配、性能評(píng)測(cè)到工程落地的一站式工具鏈；

全場(chǎng)景擴(kuò)展生態(tài)： vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強(qiáng)組件，以及 FlagOS-Robo 具身智能工具包，覆蓋大模型訓(xùn)練、推理、應(yīng)用全場(chǎng)景。

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))文章

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門文章