0
| 本文作者: 張進(jìn) | 2024-01-30 14:35 |
2013年9月底,吳韌受百度邀請,以杰出科學(xué)家的身份加入百度深度學(xué)習(xí)研究院(IDL),此時正值他五十知天命的年紀(jì)。
吳韌在人工智能領(lǐng)域耕耘多年,當(dāng)時已是一名頂尖的AI計算科學(xué)家。2012年深度學(xué)習(xí)崛起前后,多年在AI領(lǐng)域的研究和工作經(jīng)驗讓他堅信:這一輪人工智能競爭其實比拼的是計算能力。
所以,當(dāng)百度找到他時,吳韌覺得 IDL 是一個能讓他大展拳腳的平臺,便在已知天命的年齡毅然選擇回國、加入百度,成為百度第四位杰出科學(xué)家。
吳韌的任務(wù)是從算力方面讓百度更好地迎接深度學(xué)習(xí)帶來的巨大改變和挑戰(zhàn),他招募團(tuán)隊幫助百度搭建異構(gòu)計算平臺,并在上面研發(fā)超級計算機(jī)。換言之,當(dāng)時百度 AI 整體基礎(chǔ)設(shè)施中的計算部分,都由吳韌來負(fù)責(zé)。
當(dāng)時國內(nèi)研究深度學(xué)習(xí)的計算人才屈指可數(shù)。
吳韌從各個渠道精心挑選了三個技術(shù)年青人——劉文志、顏深根、單羿——組成了異構(gòu)計算團(tuán)隊的核心,后來實習(xí)生黨青青轉(zhuǎn)正、孔暢加入,加上實習(xí)生孫剛(后自動駕駛算法獨角獸 Momenta 聯(lián)合創(chuàng)始人),七人構(gòu)成百度 AI 計算的起點,共同開啟了深度學(xué)習(xí)時代的一段計算探索之旅。
數(shù)據(jù)、算法與算力是深度學(xué)習(xí)時代的“三駕馬車”——這個說法其實是吳韌在 2014 年 GTC 演講中最早公開提出來的。但相比前兩者,AI 時代的算力人才并沒有得到太多的重視。從吳韌加入百度,到他離開、異構(gòu)計算團(tuán)隊解散,吳韌帶領(lǐng)的 AI 計算團(tuán)隊一直停留在六人規(guī)模。
作為 AI 崛起中不可或缺的 Infra 部分,算力設(shè)施與它背后的人才,實則為大時代的前進(jìn)起到了不可磨滅的貢獻(xiàn)。雷峰網(wǎng)的此次記錄,僅是一次對湮沒歷史的再現(xiàn),也是一次對 AI 計算先行者的致敬。
吳韌與他的計算啟蒙
37年前,吳韌就認(rèn)識到一件事:“計算能力是核心驅(qū)動力”。
吳韌在上世紀(jì)70年代生于四川德陽,爺爺和年輕時候的父親都是一名木匠。吳韌遺傳了父輩愛鉆研的特質(zhì),從小也培養(yǎng)了極強(qiáng)的好奇心和探索欲,從初中開始就喜歡鼓搗家里的電器。
當(dāng)時通訊技術(shù)剛興起,電視機(jī)也剛在全國范圍開始普及,吳韌的鼓搗器件就從木材變?yōu)榱藭r興的無線電,從礦石收音機(jī)到更高級的收音機(jī)、電子管的音響、電子管的電視機(jī)等等,無一不是吳韌的研究對象。
組裝電視機(jī)時,沒有電路圖,吳韌就基于僅有的布線圖一遍遍嘗試,憑借有限的資料、更多是自己的想象去開拓、設(shè)計,最終居然組裝成功。
成年后的吳韌向雷峰網(wǎng)回憶,這其實是一個需要經(jīng)歷很多想象、推理與計算的過程,需要反復(fù)試錯,與他后來探索 AI 計算的研究具有異曲同工之處。
1983年,吳韌第一次接觸到計算機(jī)。當(dāng)時,他在成都?xì)庀髮W(xué)院電子系(如今的成都信息工程大學(xué)工程)讀大三,剛認(rèn)識計算機(jī)后就對這個看起來像電視機(jī)、但又要神秘許多的電子物件產(chǎn)生了濃厚的興趣,開始自學(xué)有關(guān)計算機(jī)的一切知識,包括編程,從此在計算的道路上越走越遠(yuǎn)。
僅三年時間,1986年,吳韌就編寫出了中國大陸第一個中國象棋程序。
那時,AlphaGo 還要數(shù)十年后才誕生,在國內(nèi)的計算機(jī)領(lǐng)域,像這種“寫一個計算機(jī)程序、讓它在棋局上戰(zhàn)勝別人”的任務(wù)是完全沒有資料可參考的。吳韌只有LISP語言教材中的一個簡單的搜索算法(AlphaBeta 搜索算法),剩下的所有細(xì)節(jié)都要靠自己“想象”,這也成為了他進(jìn)入AI領(lǐng)域后一個非常重要的練習(xí)。
在象棋程序的完善中,吳韌切身體會到:“它”(象棋程序)的進(jìn)步是可以量化的,即計算能力的提升!
此時的吳韌便已經(jīng)意識到算力在計算程序運行中的重要性。
1990年,吳韌入職美國一家做字符識別的公司,負(fù)責(zé)用AI的方法做識別前的各種分析和處理。但是他逐漸希望能獲得更加專業(yè)的AI研究的訓(xùn)練,所以過了一年多,他便辭職去了英國,進(jìn)入倫敦大學(xué)攻讀AI專業(yè)的博士。
接下來,吳韌在人類象棋上的兩項研究讓他在AI屆名聲大噪。
博士期間,吳韌研究的《反溯算法及其應(yīng)用》,證明了一個“被認(rèn)為是平局的中國象棋殘局炮高兵單士象必勝士象全”其實是可以取勝的局。該反溯算法改進(jìn)了當(dāng)代計算機(jī)科學(xué)泰斗、圖靈獎獲得者肯·湯普森發(fā)明的經(jīng)典算法,震動了整個計算機(jī)界。
業(yè)界對肯·湯普森的工作有改進(jìn)的工作是深藍(lán)(97年擊敗國際象棋世界冠軍)的前身——深思,它的作者許峰雄博士把湯普森的數(shù)百個芯片組成的國際象棋計算機(jī)做到單芯片上,取得突破,也才有了后來IBM深藍(lán)的成功。
計算機(jī)博弈研究是AI研究的一個重要課題,是機(jī)器智能、兵棋推演、智能決策系統(tǒng)等人工智能領(lǐng)域的重要科研基礎(chǔ)?;旧?,每一次機(jī)器博弈都會引起全球人工智能熱潮。
接著,2000年,吳韌加入硅谷享譽盛名的惠普實驗室。
要想獲得進(jìn)入美國惠普實驗室的門票必須要滿足以下三個條件之一。第一、某個學(xué)科(分支)的學(xué)科帶頭人;第二、世界名人;第三、其博士研究成果要對該公司的發(fā)展有極大的幫助。
此時吳韌憑借《反溯算法及其應(yīng)用》已經(jīng)是世界設(shè)計計算機(jī)中國象棋程序的頂級人物。
在惠普實驗室,他獨立設(shè)計開發(fā)出了一款中國象棋超級程序,并用中國現(xiàn)存最早的象棋棋譜“夢入神機(jī)”命名。該程序兩度獲得計算機(jī)象棋奧林匹克比賽冠軍,讓吳韌成為全世界設(shè)計計算機(jī)中國象棋程序的頂級專家。
吳韌的程序跟當(dāng)年的國際象棋程序類似, 追求的是極其精簡的知識編碼,最高效的策樹搜索算法以及優(yōu)化到極致的程序設(shè)計。在最頂級的競爭當(dāng)中,勝出的人必須在這三方面都必須是最頂級。這種無止境的對知識、算法、效率和下面支撐的算力的追求,也讓吳韌在他后續(xù)的各項工作中如魚得水。
在研究計算機(jī)中國象棋的過程中,吳韌已經(jīng)脫離了單純享受下中國象棋的樂趣,他更大的感受是來自AI的進(jìn)步:“它還使我們認(rèn)識到機(jī)器能夠思維,而且能達(dá)到一種什么樣的水平?!?/p>
對算力的追求,也讓吳韌對計算本身尤其是硬件實現(xiàn)額外關(guān)注。得益于惠普實驗室得天獨厚的條件,從2005年起,他開始采用GPU來進(jìn)行通用計算。
據(jù)雷峰網(wǎng)了解,吳韌應(yīng)該是最早一批使用 GPU 進(jìn)行通用計算的人之一,并且在用GPU進(jìn)行大數(shù)據(jù)解析和機(jī)器學(xué)習(xí)方向取得很大成功。
(正是有了如文中他們在AI Infra的探索與貢獻(xiàn),中國的AI事業(yè)才能站在前人辛苦打下的地基上持續(xù)前進(jìn),誠如今天的大模型,不日雷峰網(wǎng)將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領(lǐng)了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)
2010年吳韌所在的實驗室成為英偉達(dá)首批認(rèn)證的、世界范圍內(nèi)7個CUDA實驗室中的一個,吳韌也在其中升職為首席研究員。
在這五年里,吳韌就曾思考過:如果我的計算能力能夠有數(shù)量級的增長,跟別人比能有什么不一樣?世界上有沒有一款新的硬件,能把計算能力做得更好?
前26年,吳韌一直致力于計算機(jī)博弈研究,加入惠普實驗室后他開始認(rèn)識到GPU作為新計算平臺的價值,而隨后在AMD收購ATI、推出異構(gòu)計算時,他判斷異構(gòu)計算將主導(dǎo)世界未來計算的走向。
由于吳韌在惠普實驗室對英偉達(dá)生態(tài)系統(tǒng)的貢獻(xiàn),AMD朝他拋出了橄欖枝,所以吳韌在2011年加入了AMD的異構(gòu)系統(tǒng)架構(gòu)(HSA)團(tuán)隊負(fù)責(zé)整個HAS軟件和生態(tài)系統(tǒng)。
所謂異構(gòu)計算,就是將CPU與GPU搭建在一起;更進(jìn)一步說,是將兩種或多種擅長不同任務(wù)的計算硬件結(jié)合在一起、使其發(fā)揮各自所長,完成計算任務(wù)。
早在第一次開發(fā)中國象棋程序時吳韌就已經(jīng)意識到計算能力的重要性,這一次他終于真正踏進(jìn)計算的世界。
在 AMD 待了兩年后,吳韌便選擇回國加入百度IDL,因為他認(rèn)為百度IDL在新的方向上選對了。
那一陣,深度學(xué)習(xí)風(fēng)靡業(yè)界,只因Hinton(“AI教父”)的研究給AI信徒指引了一個新方向——深度學(xué)習(xí)算法。
國內(nèi)百度率先展開了行動,成立了深度學(xué)習(xí)研究院,并由李彥宏掛帥坐鎮(zhèn),親自出任院長,由當(dāng)時負(fù)責(zé)領(lǐng)導(dǎo)百度多媒體部的慕尼黑大學(xué)博士余凱任副院長。
在為深度學(xué)習(xí)研究院(IDL)網(wǎng)羅人才時,吳韌也收到了橄欖枝,同期因為百度的AI夢而加入的還有Facebook前資深科學(xué)家徐偉、美國新澤西州立大學(xué)統(tǒng)計系教授張潼、谷歌大腦項目聯(lián)合創(chuàng)始人吳恩達(dá)等等人工智能領(lǐng)域的技術(shù)大牛。
英偉達(dá)過來的劉文志
2013年9月底,吳韌正式加盟百度深度學(xué)習(xí)研究院出任杰出科學(xué)家,負(fù)責(zé)給百度搭建異構(gòu)計算平臺。
吳韌的加入其實是王海峰拍的板,當(dāng)時王海峰作為執(zhí)行負(fù)責(zé)人協(xié)助李彥宏創(chuàng)建了IDL。
跟年輕時不同,此時年近半百的吳韌已經(jīng)失去了對權(quán)力的欲望,一心想要借助百度的資源做件大事——就是用異構(gòu)計算方式去設(shè)計一個專用的超級計算機(jī),用于AI訓(xùn)練。因為他已經(jīng)看清了算力對這一輪深度學(xué)習(xí)的重要性,他認(rèn)為大算力能夠給百度帶來巨大競爭優(yōu)勢。
在其他人眼里,深度學(xué)習(xí)是全新的技術(shù),而在吳韌的眼里,這只是歷史的一次重演。
吳韌愿意來百度做超級計算機(jī)有兩個前提:一,這是一個特定的領(lǐng)域。吳韌做事喜歡選一個特定的領(lǐng)域進(jìn)入,不能是其他人都搶著做的領(lǐng)域,而百度是國內(nèi)率先做深度學(xué)習(xí),也有資源做超級計算機(jī);二,這是他擅長的領(lǐng)域。從系統(tǒng)軟件、硬件到網(wǎng)絡(luò),吳韌都懂。
為了做超級計算機(jī),吳韌還跟上級王勁“借了”200萬美金。當(dāng)時王勁是百度技術(shù)體系的老大,他從1991年起在硅谷的多家公司擔(dān)任過技術(shù)和管理職務(wù),其中包括甲骨文、informix和E-Loan等,2010年4月加入百度后,逐步為百度構(gòu)建起一個強(qiáng)大的技術(shù)研發(fā)體系。
“200萬”的事情其實是這樣的:有一次開總監(jiān)會,王勁帶著吳韌和其他總監(jiān)們坐高鐵從北京到無錫去看百度的數(shù)據(jù)中心。在火車上,吳韌就把自己想要做超級計算的想法告訴了王勁,他認(rèn)為自己的超級計算機(jī)完全可以改變未來AI的競爭局面。
沒想到王勁一次就聽進(jìn)去了,沒有吳韌想象中的反復(fù)說服、磨嘴皮子,回去后便批了200萬給他。
錢的問題解決了,但光桿司令吳韌還需要一個團(tuán)隊。經(jīng)過一番挑選,劉文志、顏深根、單羿陸續(xù)加入成為核心,黨青青、孔暢和實習(xí)生孫剛也逐漸加入,吳韌的異構(gòu)計算團(tuán)隊有了雛形。
招這幾個人吳韌是有所考量的,如劉文志是英偉達(dá)出身,顏深根對系統(tǒng)軟件設(shè)計有概念,單羿是硬件背景,懂芯片加速機(jī)器學(xué)習(xí)算法,黨青青主要做軟件。
劉文志是第一個加入的,此時劉文志剛從英偉達(dá)出來,正在尋找新機(jī)會,他把簡歷發(fā)給吳韌的當(dāng)天就收到了回復(fù),兩個月后百度便給他發(fā)了offer。
在這幾個人中,劉文志的學(xué)歷最低,只有碩士學(xué)歷,但吳韌認(rèn)為他極其聰明。后來,劉文志也是最先從吳韌團(tuán)隊撤離的那一個——早于2014年ImageNet大型圖像識別挑戰(zhàn)賽(ILSVRC)風(fēng)波便離開了。
劉文志本科時就接觸到高性能計算,他學(xué)的是計算化學(xué)專業(yè),主要研究內(nèi)容是利用有效的數(shù)學(xué)近似以及電腦程序計算分子的性質(zhì),例如總能量、偶極矩、反應(yīng)活性等,并用以解釋一些具體的化學(xué)問題。
計算化學(xué)有一個很大的問題,就是實驗成本很高,其中計算機(jī)實驗成本高是時間長造成的,經(jīng)常需要幾百臺機(jī)器來計算。劉文志對解決這個問題很感興趣,他的編程能力也不錯。
那時中國高校還沒人研究過這個問題,也沒幾個人會寫這類程序。
在中科院讀碩士時,劉文志便開始專心研究這個方向,第二年進(jìn)研究所后用了三個月就完成了第一個計算,讓他的導(dǎo)師很是吃驚。
碩士畢業(yè)時因為在CUDA社區(qū)很有名的緣故,劉文志順利地進(jìn)入了英偉達(dá)。
CUDA是NVIDIA在2006年推出的一種通用并行計算平臺和編程模型,它利用NVIDIA GPU中的并行計算引擎以比CPU更有效的方式解決許多復(fù)雜的計算問題。今天,CUDA社區(qū)有超過400萬的開發(fā)者,CUDA生態(tài)已經(jīng)成為英偉達(dá)在AI芯片領(lǐng)域占據(jù)領(lǐng)先優(yōu)勢的強(qiáng)大壁壘。
2007年年底CUDA開始在中國推行,2008年劉文志就開始做CUDA,并以網(wǎng)名“風(fēng)辰”聞名于CUDA社區(qū),劉文志是國內(nèi)最早推廣CUDA的開發(fā)者之一,有名的還有周斌、趙開勇、陳實富等人。
劉文志在英偉達(dá)的上司是王鵬,王鵬喜歡工程技術(shù)勝過做領(lǐng)導(dǎo),面試時王鵬問劉文志未來的目標(biāo)是什么,劉文志說“三年后你升一級,我也升一級,我升到你的位置”,隨后兩個人都笑了。
從這時起劉文志便開始顯露他的鋒芒與聰明果決。
兩人一起搭檔工作到2013年,王鵬因為綠卡原因必須回美國,希望劉文志接替他的工作,但此時劉文志去意已決。
因為他發(fā)現(xiàn)英偉達(dá)的HPC業(yè)務(wù)很吃學(xué)歷,并且中國人在英偉達(dá)不受重視,后便跟王鵬達(dá)成一致,重新找到一個更合適的人。
新人上任三四個月后,劉文志就遇上了吳韌百度IDL這個機(jī)會。
在英偉達(dá),劉文志協(xié)助王鵬建立了北京CUDA團(tuán)隊,并負(fù)責(zé)將大規(guī)模GPU計算集群應(yīng)用于石油和天然氣行業(yè)。
彼時AI深度學(xué)習(xí)尚未爆發(fā),石油勘探中的高性能計算是英偉達(dá)在中國最盈利的Tesla業(yè)務(wù)方向。但劉文志已經(jīng)意識到深度學(xué)習(xí)的未來以及HPC(異構(gòu)并行計算)對人工智能的重要性。他判斷,一旦深度學(xué)習(xí)普及,對GPU的需求量級將擴(kuò)大百倍以上。后來的事實甚至超出劉文志的預(yù)料——實際上是擴(kuò)大了近萬倍。
所以即便2013年12月百度給的offer并不是那么令他滿意,劉文志也接了,正是因為他看到了深度學(xué)習(xí)與異構(gòu)計算的趨勢,而百度IDL是國內(nèi)最早做深度學(xué)習(xí)的。
加入后,劉文志一邊跟著吳韌做深度學(xué)習(xí)的AI平臺和算法相關(guān)工作,一邊協(xié)助吳韌建立團(tuán)隊,不日,顏深根、單羿、黨青青、孫剛、孔暢也陸續(xù)加入。
懂系統(tǒng)軟件設(shè)計的顏深根
顏深根是異構(gòu)計算團(tuán)隊的第二個創(chuàng)始成員。
他博士還沒畢業(yè)就被吳韌拉進(jìn)團(tuán)隊,那時顏深根還在美國做訪問學(xué)者,吳韌把他從美國挖了回來。
吳韌看中顏深根在博士期間負(fù)責(zé)過AMD的一個項目經(jīng)驗:把AMD的GPU在OpenCV上跑起來。
這個項目不僅涉及到計算,還涉及到很多計算機(jī)視覺(CV)的算法,比如要做邊緣檢測、人臉識別都需要專業(yè)人士去設(shè)計的這些算法。
那時顏深根還不了解深度學(xué)習(xí),偶然一次接觸還是一次他的師弟告訴他,現(xiàn)在出現(xiàn)了一個新的機(jī)器學(xué)習(xí)算法叫深度學(xué)習(xí),非常強(qiáng),跟以往的機(jī)器學(xué)習(xí)算法都不一樣,邊緣檢測、人臉識別這些只靠深度學(xué)習(xí)就能搞定。
但由于當(dāng)時要忙博士論文,所以他一直拖到2013年才開始去了解深度學(xué)習(xí)。
顏深根最早接觸AI是在哈工大讀本科的時候,他在那里學(xué)習(xí)了自然語言處理、搜索引擎等相關(guān)的知識,從這時起他便逐漸對AI產(chǎn)生興趣。
在中科院讀博士時他一開始其實是想繼續(xù)研究自然語言處理,但陰差陽錯之下最后選擇了高性能計算,但他內(nèi)心一直對算法念念不忘。
讀博期間,顏深根聽同宿舍的師兄說博士要發(fā)論文才能畢業(yè),而他那位師兄博士讀了五六年還沒能畢業(yè),這讓顏深根非常擔(dān)心自己也畢不了業(yè)。
但沒想到2012年、2013年他連續(xù)兩年在并行計算頂級會議PPoPP發(fā)表長論文(大陸首次),不僅不用擔(dān)心畢不了業(yè),還超額完成論文任務(wù)。
2013年的那篇頂級會議PPoPP論文發(fā)布后,顏深根獲得了一次去美國北卡州立大學(xué)作訪問學(xué)者的機(jī)會,在這期間他開始去研究深度學(xué)習(xí),才發(fā)現(xiàn)深度學(xué)習(xí)跟高性能計算聯(lián)系非常緊密,需要大量計算的支持。
也正是在美國訪問期間,顏深根看到了吳韌在微博發(fā)的招聘異構(gòu)計算方面人才的信息。
其實在發(fā)現(xiàn)這則招聘信息之前,顏深根就已經(jīng)被吳韌注意到:
因為一次顏深根回答了一個網(wǎng)友有關(guān)高性能計算的問題,這個網(wǎng)友正是吳韌團(tuán)隊的實習(xí)生黨青青。
所以顏深根很順利地成為了吳韌團(tuán)隊繼劉文志之后的第二個成員。
多年以后跟雷峰網(wǎng)回憶往昔,顏深根感慨在百度的一年半時間里,他們做的事頂在別的地方三四年,做了很多具有挑戰(zhàn)性、有意思的工作。
(2015年左右,一大批AI公司創(chuàng)立,脫穎而出的“AI四小龍”將中國AI事業(yè)帶入到從研究到落地的階段,其中之一的曠視,創(chuàng)業(yè)十載,在風(fēng)雨中飄搖多年,如今正站在懸崖邊搖搖欲墜,焦急地等待上市祈求脫困,令人唏噓,曠視的十年也是中國過去十年中AI公司的興衰成敗,接下來雷峰網(wǎng)將推出《曠視創(chuàng)業(yè)十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)
2014年初,顏深根正式加入百度IDL異構(gòu)計算團(tuán)隊,一開始團(tuán)隊想在AMD的機(jī)器上把深度學(xué)習(xí)跑起來,因為團(tuán)隊有很多這方面的經(jīng)驗。
首先吳韌就是AMD前異構(gòu)系統(tǒng)首席軟件架構(gòu)師,顏深根博士期間也為了把OpenCV在AMD的GPU上跑起來做了很多這方面的工作。
另一件事是組建了國內(nèi)第一個深度學(xué)習(xí)超級計算機(jī)Minwa,吳韌負(fù)責(zé)系統(tǒng)設(shè)計,顏深根負(fù)責(zé)系統(tǒng)軟件。
有了超級計算機(jī)之后便開始進(jìn)行大規(guī)模的訓(xùn)練,在這個過程中,吳韌他們在Hinton之前率先發(fā)現(xiàn)了用數(shù)據(jù)并行和模型并行去做AlexNet神經(jīng)網(wǎng)絡(luò)。
當(dāng)時有兩個深度學(xué)習(xí)框架可選,一個是ConvNet,一個是Caffe。
如果要基于ConvNet去做大規(guī)模訓(xùn)練,但ConvNet只能做兩張GPU的,做更多GPU就得做擴(kuò)展。
那時賈揚清的Caffe剛出來,但也只能支持一張GPU。吳韌他們需要的是能夠支持在一個集群上跑的架構(gòu),那時一個集群一般是8張GPU。
無可奈何之下,只能自己設(shè)計一個可擴(kuò)展的并行方案。這個項目主要由顏深根負(fù)責(zé),而當(dāng)時行業(yè)里沒有任何可參考的案例。
顏深根他們分析了AlexNet神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)有兩個部分,前面是五層卷積,后面是三層全連接。但這兩部的計算、通信特點都不一樣。
他們發(fā)現(xiàn),五層卷積其實可以用數(shù)據(jù)并行這種方式來做,后面三層全連接可以用模型并行的方式。
那會兒還沒有數(shù)據(jù)并行、模型并行的概念,后面業(yè)界才將這兩種并行方式命名為數(shù)據(jù)并行和模型并行。但在當(dāng)時,這都是顏深根等人手推出來的,推公式,把矩陣乘拆開去做計算。
有了這個發(fā)現(xiàn)后,當(dāng)他們準(zhǔn)備寫代碼去實現(xiàn)時,Hinton團(tuán)隊發(fā)了第二篇論文,介紹了如何做AlexNet的并行方法,跟顏深根他們想的方法相同。
這個方法后來成為一個非常經(jīng)典的方法,奠定了數(shù)據(jù)并行和模型并行的一個基本方式。
除此,顏深根等人也可能是業(yè)內(nèi)第一個將GPU多卡計算的通信優(yōu)化算法—Ring Allreduce應(yīng)用到深度學(xué)習(xí)領(lǐng)域的研究團(tuán)隊。
當(dāng)時,顏深根他們在做數(shù)據(jù)并行時需要做大量通信,彼時只有MPI可用,但MPI自帶的Allreduce算法性能很差,他們不得不自己去優(yōu)化。
顏深根想了很長時間,設(shè)計出來一種計算方式可以保證通信量不會隨著GPU數(shù)量增加而增加,即用多少GPU,通信量都是恒定的。
他把這個算法講給在美國的吳韌聽了以后,吳韌非常認(rèn)可,還取了個名字叫“Butterfly”,因為算法畫圖顯示是一個蝴蝶形狀。
結(jié)果一年后百度另一個團(tuán)隊發(fā)現(xiàn)這個算法早已在高性能計算的歷史中存在了,叫Ring Allreduce——其通信成本是恒定的并且與系統(tǒng)中GPU的數(shù)量無關(guān),并且僅由系統(tǒng)中GPU之間的最慢連接確定。Ring Allreduce能減少不同 GPU 之間的通信時間,從而允許將更多時間用在有用計算上。
因此這種情況下,雖然是顏深根他們自己研究出來的“Butterfly”算法,但新人老路,只能說應(yīng)該是第一個將Ring Allreduce應(yīng)用到深度學(xué)習(xí)領(lǐng)域的團(tuán)隊。
到了2014年底,吳韌、顏深根他們已經(jīng)可以做到128張GPU同時并行了,領(lǐng)先國內(nèi)廠商多年。
在團(tuán)隊里,顏深根主要跟單羿合作,兩人一個負(fù)責(zé)系統(tǒng)一個負(fù)責(zé)算法,顏深根認(rèn)為單羿是一個很有格局的人。
有硬件背景的單羿
單羿在顏深根之后加入,他清華博士畢業(yè)后就選擇了創(chuàng)立僅一年半的百度IDL。
單羿擁有很強(qiáng)的硬件背景,在博士期間做了很多芯片相關(guān)的事情,基本上是用FPGA芯片加速機(jī)器學(xué)習(xí)算法。
單羿本碩博均就讀于清華電子工程系,2008年起在汪玉門下讀博士。
汪玉本碩博同樣就讀于清華,博士師從楊華中和謝源,07年開始留校任教,單羿是他的第一個博士生。
兩人第一次見面時,汪玉問他想研究什么方向,單羿說自己想做跟互聯(lián)網(wǎng)相關(guān)的(例如搜索引擎)、能賺錢的方向。
當(dāng)時單羿暑假在微軟亞研許峰雄博士手底下做實習(xí)生時,就是做的搜索引擎方向,汪玉提議他沿著暑假實習(xí)的話題繼續(xù)做。
做的具體事情是:用芯片加速搜索引擎中的機(jī)器學(xué)習(xí)算法,這既跟電子系有關(guān),而且搜索引擎、微軟亞研也是當(dāng)時 AI 領(lǐng)域最熱的關(guān)鍵詞。
谷歌當(dāng)年提出了PageRank,是為了在搜索引擎優(yōu)化中評估網(wǎng)頁優(yōu)化的成效,這背后其實是很簡單的機(jī)器學(xué)習(xí),但后來隨著搜索引擎越來越重要,像SVM、PageRank越來越多的機(jī)器學(xué)習(xí)算法都應(yīng)用到里面,這背后開始蘊含著大量的計算壓力。
當(dāng)時大家都用CPU去做這種計算,但在微軟,許峰雄提出了用FPGA芯片去加速機(jī)器學(xué)習(xí)。
許峰雄曾經(jīng)為IBM開發(fā)“深藍(lán)”(Deep Blue)計算機(jī),打敗了世界棋王,因此得名“深藍(lán)教父”,他在做深藍(lán)時就想到可以用FPGA芯片去加速機(jī)器學(xué)習(xí)算法,后來到微軟亞研后發(fā)現(xiàn)微軟也有這方面的場景,便提出了用FPGA芯片去加速機(jī)器學(xué)習(xí),解決搜索的延遲,算得更快。
這個項目由正式員工徐寧儀,和清華博士在讀的單羿、中科大碩士在讀的歐陽劍兩個實習(xí)生負(fù)責(zé)。
用FPGA芯片去加速搜索引擎,即把搜索引擎里面的機(jī)器算法芯片化。
涉及的方面非常多,例如不同算法的硬件實現(xiàn),當(dāng)時CPU還在串行計算里面打轉(zhuǎn),單羿他們就用矩陣乘法做了很多優(yōu)化,開始用并行計算發(fā)現(xiàn)算得更快。
08年單羿開始做稀疏矩陣向量乘(SpMV),那時SpMV是一個很數(shù)學(xué)的東西,很少有機(jī)器學(xué)習(xí)領(lǐng)域的人會關(guān)注,更何況當(dāng)時機(jī)器學(xué)習(xí)還沒火。
單羿設(shè)計了專用的芯片架構(gòu),用FPGA芯片去加速稀疏矩陣向量乘法,做到了當(dāng)時世界上最快的成績。
09年單羿還發(fā)了一篇用FPGA芯片去加速經(jīng)典的排序算法RankBoost論文,成為了該領(lǐng)域來自中國大陸的第一篇論文。
從2007年到2010年,單羿都在微軟亞研研究如何用FPGA芯片去加速搜索引擎,他每天靠微軟亞研的可樂機(jī)續(xù)命,基本都是忙到凌晨三點下班,早上八九點繼續(xù)上班。
同時這也是單羿博士的課題,“用芯片去加速機(jī)器學(xué)習(xí)”這個課題最后開創(chuàng)了汪玉博士生團(tuán)隊的一個研究新方向。
這三年單羿用芯片加速搜索引擎中的機(jī)器學(xué)習(xí),做了十多種機(jī)器學(xué)習(xí)算法的芯片加速,那時他就理解到,除了計算以外,存儲也很重要。如今從 Flash 到 DDR,到片上存儲等等一系列存儲架構(gòu),包括現(xiàn)在近存計算這些概念,都是單羿那時玩過的概念。
大概2010年的時候,他結(jié)束了微軟亞研的實習(xí),轉(zhuǎn)去做博士的另一個方向:用芯片去做立體視覺。上一個項目“用FPGA芯片去加速搜索引擎”也被微軟亞研接手,用到了搜索引擎、云計算當(dāng)中。
而歐陽劍碩士畢業(yè)后沒留在MSRA,去了百度,干了大概一年多時間,他還是堅定地認(rèn)為在MSRA做的“用FPGA芯片去加速機(jī)器學(xué)習(xí)”這件事對百度是很有價值的,所以他又在百度繼續(xù)干,后來百度也開始意識到用芯片來加速搜索引擎的重要性。
歐陽劍也從此一路高升,在此后百度宣布旗下昆侖芯片業(yè)務(wù)成立獨立新公司——昆侖芯(北京)科技有限公司時,身為百度芯片首席架構(gòu)師的歐陽劍出任該公司CEO,帶領(lǐng)百度努力跨越自研芯片的鴻溝。
后來徐寧儀從微軟亞研出來后也去了百度,由于他的背景便加入了歐陽劍的組,兩人再次成為同事。
單羿研究立體視覺是因為汪玉跟日本三菱重工的一個合作項目。三菱重工想在新加坡做一個道路的自動通行系統(tǒng),類似國內(nèi)的ETC,但它不需要人,只有一個龍門架上面各種攝像頭、傳感器,埋在地下的線圈,降低了人的消耗,三菱重工想要在第二代系統(tǒng)里面只用攝像頭,其他都省略掉。
這就涉及到檢測追蹤,例如車牌識別,車的外形尺寸識別,三菱重工的想法是在路邊兒立一個桿,就像電線桿一樣,然后上面掛一個雙目攝像頭的立體相機(jī)。
這個項目始于2009年10月,當(dāng)時汪玉的電子系派單羿來做芯片實現(xiàn),清華自動化系的張長學(xué)團(tuán)隊負(fù)責(zé)算法,派的是胡瀚,即后來 Swin Transformer 的作者、現(xiàn)在MSRA視覺組的老大。
單羿跟胡瀚都是 2004 級的清華本科,胡瀚在自動化讀直博,單羿在電子系讀直博,兩人在這個項目里認(rèn)識。后來同一年去百度IDL當(dāng)了同事,再后來單羿去創(chuàng)業(yè),胡瀚就去了MSRA。
但當(dāng)時自動化系對系統(tǒng)和芯片的了解并不深入,他們的算法多是堆各種各樣的特征,拼湊在一起,然后調(diào)調(diào)參數(shù)、權(quán)重,有一個精度不錯的結(jié)果就丟給單羿。對于單羿來講,這是不能直接運作的,因為在芯片實現(xiàn)的時候,每一份計算都代表的是芯片的代價,而單羿要用最高的能效去實現(xiàn)這個算法。
所以給到他的代碼就只作為參考,單羿不得不自己去啃OpenCV那些算法,當(dāng)時大概有 100 多個軟件算法的模塊,他把絕大部分都寫成芯片的代碼,還為此做了一個芯片的OpenCV庫。
前面一年在做OpenCV基礎(chǔ)算法的芯片化,后面兩年都在研究立體視覺。最后在 2012 年給三菱交了差,單羿也拿到了三菱的博士生獎學(xué)金,還發(fā)了一篇ACM的文章,這篇文章討論了用FPGA芯片來加速世界上最快的 1080P 分辨率下的立體視覺系統(tǒng)。
這個項目后來微軟也希望能用于 Kinect 機(jī),但是由于其對近距離的手勢識別比較差,微軟便放棄了。單羿后來向雷峰網(wǎng)回憶,“如果能在Kinect機(jī)上用起來,它的量會很恐怖。”
在那時,單羿已經(jīng)堅定地認(rèn)為視覺未來一定是往3D走的,后來隨著深度學(xué)習(xí)受到廣泛關(guān)注,單羿在深鑒、賽靈思、AMD時還一直有一個小團(tuán)隊堅持用AI來做立體視覺。
2020年用AI做雙目攝像頭有了突破,當(dāng)時單羿在AMD,他發(fā)現(xiàn)賽靈思的汽車用戶 Continental 跟斯巴魯提了同樣的需求——用 AI 去做立體視覺,他才意識到這件事兒必須要做,而且是件大事,能夠替代激光雷達(dá),所以單羿便出去創(chuàng)建了鑒智機(jī)器人。
通過三菱重工項目,單羿從最初想要用芯片去加速機(jī)器學(xué)習(xí),慢慢才發(fā)現(xiàn)計算機(jī)視覺的算法也是機(jī)器學(xué)習(xí),做搜索引擎的算法也是機(jī)器學(xué)習(xí),所以他認(rèn)為用芯片去加速機(jī)器學(xué)習(xí)是很多領(lǐng)域都需要的,這是一個很重要的事情。
后來他又思考能否用更多的資源去做虛擬化的加速,便引出了在博士期間做的第三個項目:單羿博士最后一年在IBM研究院實習(xí),這期間他發(fā)了一篇有關(guān)“機(jī)器學(xué)習(xí)的芯片在云端虛擬化”的文章,被引用很多次。
單羿是第一個開始思考做這件事的人。
他結(jié)合OpeStack框架,把FPGA芯片的加速器在云端虛擬化了,這樣多個用戶就能共享該虛擬的加速器。
2014年博士畢業(yè)后他便加入了百度IDL異構(gòu)計算團(tuán)隊,跟著吳韌進(jìn)入互聯(lián)網(wǎng),當(dāng)時百度還跟英特爾有合作,正是把FPGA 放在云端去加速Deep Learning算法。
劉文志、顏深根、單羿是國內(nèi)最早跟著吳韌把深度學(xué)習(xí)跟異構(gòu)計算結(jié)合起來的那批人。
隨著劉文志、顏深根、單羿三個主力就位,后面黨青青、孔暢、孫剛也陸續(xù)加入,吳韌的異構(gòu)計算團(tuán)隊初顯雛形。
黯淡離場
2014年,百度在AI的布局越來越廣,4月百度成立了大數(shù)據(jù)實驗室(BDL),5月百度在美國加州的科技大本營成立了硅谷人工智能實驗室(SVAIL),將自家研究院建到谷歌旁邊的同時,還挖了谷歌大腦的聯(lián)合創(chuàng)始人吳恩達(dá)。
此次百度深入硅谷,正是為了與谷歌在AI上一較高下。
深度學(xué)習(xí)研究院改為深度學(xué)習(xí)實驗室(沿用“IDL”的名稱),百度研究院也正式組建起來,研究院當(dāng)時包括IDL、BDL和SVAIL。
在硅谷的人都了解吳恩達(dá),他在人工智能領(lǐng)域是公認(rèn)的領(lǐng)軍人物之一。成為百度首席科學(xué)家之后,吳恩達(dá)將全面負(fù)責(zé)百度研究院,并與百度在北京的研究人員展開緊密合作。
在百度成立深度學(xué)習(xí)研究院,將AI確定為重要戰(zhàn)略方向時,百度的技術(shù)體系老大王勁就一直在全球?qū)ひ捯晃籄I領(lǐng)軍人物,此次吳恩達(dá)加盟百度,王勁是幕后至關(guān)重要的操盤手,而吳恩達(dá)的匯報對象也正是王勁。
但也有一種說法是請吳恩達(dá)是余凱的主意,兩人曾是舊識。
隨著吳恩達(dá)的加入,百度研究院聚齊了一眾高手,包括王勁、余凱、吳韌……
但很快吳韌的異構(gòu)計算團(tuán)隊面臨了一次分崩離析的危機(jī)。
2015年6月,百度在ImageNet國際計算機(jī)視覺挑戰(zhàn)賽(ILSVRC)中超額提交行為暴露,國外技術(shù)媒體紛紛借機(jī)報道,稱百度在超算比賽中作弊。
輿論壓力下,百度隨后承認(rèn)了違規(guī)行為,并就此事道歉和調(diào)查。一周后百度公布事件的調(diào)查結(jié)果,開除此次參賽的異構(gòu)計算團(tuán)隊負(fù)責(zé)人吳韌。
在當(dāng)時百度研究院負(fù)責(zé)人吳恩達(dá)發(fā)布的公開信中,承認(rèn)吳韌在挑戰(zhàn)賽中曾指示初級工程師們每周進(jìn)行超過2次的提交,違反了ImageNet規(guī)定。解除吳韌之后,百度異構(gòu)計算5人團(tuán)隊由前Facebook資深科學(xué)家徐偉帶領(lǐng)。
吳韌被迫出局,手下的成員也大部分跟隨吳韌就此離開百度,一個中國異構(gòu)計算的夢之隊就此解散。
但當(dāng)年的真相也許并非如外界大肆報道的那樣。據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))了解:
首先,當(dāng)時ImageNet官網(wǎng)上寫的是一個賬號每周最多提交兩次,但并沒有規(guī)定一個團(tuán)隊只能注冊一個賬號,所以吳韌團(tuán)隊的行為屬于無心之失,更達(dá)不到作弊的程度。
其次,這段時間的結(jié)果并不是真正意義上的參賽結(jié)果。當(dāng)時2014年ILSVRC比賽結(jié)束后(百度并沒有參與),ILSVRC比賽主辦方允許各個研究團(tuán)隊繼續(xù)上傳結(jié)果到服務(wù)器上,但這個結(jié)果不會被主辦方收錄到官方網(wǎng)站上,各個研究隊伍都會利用兩次競賽之間的時間上傳結(jié)果來驗證最新的研究和工程方案,真正2015年的ILSVRC比賽還沒開始。
當(dāng)年也有參賽者指出,這就好比百米賽跑,ILSVRC是奧運會,各選手平時提交的是訓(xùn)練成績,然后選擇最好的一次訓(xùn)練成績公布給大家,但吳韌團(tuán)隊身體素質(zhì)好所以比別人多跑了幾次訓(xùn)練賽。即吳韌團(tuán)隊搭建的異構(gòu)計算平臺比別人的大,所以可以在有限時間里跑很多次。但實際上比賽成績和跑多少次其實關(guān)系并不大,更重要的是算法本身是否有效,就像一個上限是13秒的運動員跑一千次可能也進(jìn)不了10秒。
湯曉鷗當(dāng)年也曾公開為吳韌發(fā)聲,批駁“作弊”一說。
在湯曉鷗看來,吳韌的異構(gòu)計算團(tuán)隊其實具備了與世界一流研究機(jī)構(gòu)進(jìn)行競爭甚至在某些技術(shù)點上領(lǐng)先的能力。他們的計算平臺能夠在五天之內(nèi)提交40次的試驗結(jié)果,也從側(cè)面反映了他們的系統(tǒng)優(yōu)勢。而從百度披露信息表明,參賽團(tuán)隊成員都是高性能計算背景,并沒有實際的計算機(jī)視覺的研究經(jīng)驗,才會導(dǎo)致對規(guī)則的誤解。
“這次事件的發(fā)展很是不幸,我相信造成的原因更多是誤解,然后被媒體過度放大。吳韌的工作是令人欽佩的,而目前部分媒體的報道有失公允?!?/p>
多年以后,再看當(dāng)年的異構(gòu)計算團(tuán)隊、他們做過的事情,吳韌當(dāng)時能組建這樣一個團(tuán)隊,而團(tuán)隊里的每個人都有所長,能力相互補足,還是很有遠(yuǎn)見的。畢竟當(dāng)時谷歌和Facebook都沒有想清楚要怎么做,國內(nèi)也沒有這樣的團(tuán)隊,全球都很少有。
更何況,深度學(xué)習(xí)跟高性能計算結(jié)合本身就是 AI 領(lǐng)域非常重要的創(chuàng)新。
或許,如果吳韌能在百度再多待兩年,百度或中國的 AI 發(fā)展歷史還有可能會被改寫。
各奔前程
多年以后,再看吳韌當(dāng)年在百度IDL異構(gòu)計算團(tuán)隊的學(xué)生們,初出茅廬時每個人各有千秋但都青澀稚嫩,在吳韌的號召下組成了一支中國異構(gòu)計算的夢之隊,而這支隊伍在吳韌的領(lǐng)航下正式駛?cè)肷疃葘W(xué)習(xí)深水區(qū)。團(tuán)隊設(shè)計的敏媧超級計算機(jī),也點燃全球AI算力的軍備競賽!
當(dāng)年,吳韌團(tuán)隊在敏媧設(shè)計中并沒有采用當(dāng)時英偉達(dá)自己的NVLINK,而是堅持NUMA 架構(gòu)下GPU加 InfiniBand 網(wǎng)絡(luò)的設(shè)計,這也為英偉達(dá)后來全資收購InfiniBand技術(shù)的擁有者以色列Mellanox公司埋下伏筆。今天,英偉達(dá)GPU和InfiniBand網(wǎng)絡(luò)也已經(jīng)成為AI算力的核心。
時至今日,距離百度IDL成立近十年之期,當(dāng)年吳韌在百度的學(xué)生們已經(jīng)全部成長為國內(nèi)一線AI創(chuàng)業(yè)公司的中流砥柱,每個人都已成長為AI infra領(lǐng)域非常厲害的人物:
劉文志歷經(jīng)商湯、華為,負(fù)責(zé)開拓過多條AI業(yè)務(wù)線,磨練多年后,如今創(chuàng)立了國產(chǎn)智能駕駛OS公司足下科技;
顏深根在商湯磨礪七年,幫商湯搭建了上萬張卡的集群,今天闖入大模型創(chuàng)立公司“無問芯穹”;
單羿創(chuàng)業(yè)深鑒科技兩年后賣給了當(dāng)時全球第一大FPGA廠商賽靈思(Xilinx),現(xiàn)在又投身于做自動駕駛方案解決商鑒智機(jī)器人;
黨青青成為百度深度學(xué)習(xí)架構(gòu)Paddle Paddle(飛槳飛槳)團(tuán)隊主力;
孫剛作為聯(lián)合創(chuàng)始人的 Momenta 已經(jīng)躋身國內(nèi)自動駕駛算法公司第一梯隊……
出走百度的幾人,慢慢都找到了自己的人生方向。
52歲的吳韌并沒有就此沉淪,回到硅谷后創(chuàng)立了 NovuMind異構(gòu)智能,一家專為行業(yè)提供ASIC芯片+訓(xùn)練模型的全棧式AI解決方案的AI公司,很快便獲得了1500萬美元的A輪融資,估值達(dá)到1億美元。
其他幾人則分散在今天幾家老牌AI公司里面,那時它們還都屬于剛創(chuàng)業(yè)的嬰幼兒階段,急需年輕的血液補充。所以他們幾人又零距離見證了中國過去十年中這些AI公司的興衰成敗,而且每個人都置身其中,有的人還親自參與掌舵。
(接下來雷峰網(wǎng)將推出《曠視創(chuàng)業(yè)十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)
在2014年,大量初創(chuàng)的人工智能公司集中出現(xiàn)。此后,隨著資本進(jìn)一步加持,全球范圍內(nèi)“Al”熱潮不斷迭起。后來的AI四小龍曠視、依圖、商湯、云從都是在這個時間段先后出現(xiàn)。
劉文志早于吳韌、顏深根、單羿他們離開百度,出去后他拿到了格林深瞳、曠視、商湯的offer。
最后他選擇了商湯,因為他非常相信湯曉鷗。
在商湯,劉文志做出了很多成績,例如和林達(dá)華一起推動并建立了深度學(xué)習(xí)訓(xùn)練框架Parrots,以及推動推理引擎PPL,PPL亦成為商湯各項業(yè)務(wù)的技術(shù)基石。
2015年,劉文志把深度學(xué)習(xí)做到手機(jī)和攝像頭上,是商湯內(nèi)部最早將深度學(xué)習(xí)訓(xùn)練和推理分開研究的先行者;此外,他也是商湯智能汽車業(yè)務(wù)的創(chuàng)始成員之一,協(xié)助定義了商湯智能汽車產(chǎn)品和組織體系,確定 DMS、OMS、ADAS和AVP等產(chǎn)品,建立ASPICE流程體系,拿下多個重要汽車客戶。劉文志當(dāng)年力推的DMS,如今已引領(lǐng)中國市場。
劉文志加入商湯時是抱著跟商湯共進(jìn)退的想法,在商湯幾次生死攸關(guān)的關(guān)鍵時刻,他都發(fā)揮了重要作用。
例如,商湯第一次在人臉識別上跟曠視“干架”、并取得超過曠視的成績,就是劉文志、曹旭東和楊帆三個人聯(lián)手的成績,劉文志負(fù)責(zé)大規(guī)模的訓(xùn)練平臺,曹旭東做AI算法,楊帆指揮人標(biāo)數(shù)據(jù)。
但劉文志最大的作用應(yīng)該是提醒湯曉鷗一定要搶占人臉識別在手機(jī)上的這個戰(zhàn)場。
當(dāng)時曠視吳文昊率先布局手機(jī)端的人臉識別,而商湯在這件事上一直猶豫不決。劉文志知曉后,便分析現(xiàn)狀:如果手機(jī)的人臉識別全是曠視的技術(shù),那么以后所有人都認(rèn)為中國人臉識別技術(shù)是曠視最強(qiáng),商湯發(fā)再多論文都沒用,用戶根本不會去看商湯有多少技術(shù)、有多少研究人員,只看手機(jī)中實際用到的技術(shù)來自于誰。
“如果手機(jī)的人臉識別被曠視占據(jù)了,商湯就不戰(zhàn)而敗了?!钡诙焐虦妥屚鯐詣値ш犡?fù)責(zé)手機(jī)端的人臉識別。
還有一次是給本田的項目救火,就著本田項目的機(jī)會,劉文志開始把商湯的汽車業(yè)務(wù)拉了起來,成為商湯智能汽車業(yè)務(wù)的開拓者。
從商湯出來后,劉文志加入了華為,2020年出任華為諾亞AI系統(tǒng)工程實驗室主任,管理一個規(guī)模達(dá)一百多人的技術(shù)團(tuán)隊。
他在華為研發(fā)的Bolt產(chǎn)品為華為手機(jī)提供算力支持,研發(fā)的Vega作為計算產(chǎn)業(yè)的關(guān)鍵組件為模型生產(chǎn)提供支持,參與領(lǐng)導(dǎo)了華為NLP大模型和搜索大模型的研發(fā)攻關(guān),同時和海思相關(guān)團(tuán)隊一起優(yōu)化AI芯片軟件算法。
劉文志在華為的導(dǎo)師是王丙福,華為的5G之父,他非常感激王老師給他的幫助,讓他成功度過在華為的那些關(guān)鍵節(jié)點。
在華為干了2年8個月,出來后劉文志創(chuàng)立了足下科技,做國產(chǎn)智能駕駛操作系統(tǒng)。
而2015年經(jīng)歷ILSVRC風(fēng)波后,顏深根去了商湯,單羿加入了地平線,黨青青選擇留在百度,后來成為百度深度學(xué)習(xí)框架PaddlePaddle的研發(fā)主力。
顏深根加入商湯時,商湯才100多人。他是聽了孫剛的建議才下定決心加入商湯。
兩人都曾在中科院軟件所,同一個實驗室,同一級。顏根深比他早一年畢業(yè),那時孫剛在微軟亞研孫劍團(tuán)隊實習(xí),顏深根去了百度IDL后,孫剛后來也想去IDL,經(jīng)過顏深根對吳韌的極力推薦,孫剛才得以進(jìn)去實習(xí)。
畢業(yè)后,孫剛跟著曹旭東去了商湯,兩人相識于微軟亞研,都在孫劍團(tuán)隊。
聽了孫剛的建議,顏深根加入商湯,任數(shù)據(jù)與計算平臺部執(zhí)行研究總監(jiān),負(fù)責(zé)搭建大規(guī)模高性能AI計算平臺和深度學(xué)習(xí)訓(xùn)練框架,兩人再次成為同事。
顏深根團(tuán)隊跟曹旭東團(tuán)隊有合作,一個負(fù)責(zé)系統(tǒng),一個負(fù)責(zé)算法,而孫剛是曹旭東團(tuán)隊即懂算法又懂系統(tǒng)的人。
2016年,孫剛跟著曹旭東出去創(chuàng)立了自動駕駛公司Momenta,孫剛代表Momenta在ImageNet 2016中獲得場景分類亞軍,ImageNet 2017中獲得圖像分類冠軍。
在商湯七年,顏深根共經(jīng)歷了三個階段:15年-16年從0開始,把團(tuán)隊帶來起;17-18年穩(wěn)定發(fā)展;19年之后開始擴(kuò)大規(guī)模。這也符合商湯本身的發(fā)展。
在商湯,顏深根主要負(fù)責(zé)推動了三件事:
一是搭建了商湯的AI大裝置SenseCore。剛加入商湯時,每個算法同學(xué)的桌子下都放著一個臺式機(jī),在上面做模型訓(xùn)練,還是單機(jī)的訓(xùn)練。顏深根進(jìn)去第一年便搭建了第一個深度學(xué)習(xí)集群,由于他在百度已經(jīng)搭建了128張卡,商湯就說要超過百度,最后搭了一個200張卡的集群。七年里不斷擴(kuò)大,2022年顏深根離開時商湯已經(jīng)有了差不多2萬張卡,從200張卡的集群變成了2萬多張卡的數(shù)據(jù)中心。
二是幫助商湯跟大學(xué)建立合作。創(chuàng)始團(tuán)隊是CV背景,沒有高性能計算和系統(tǒng)背景,所以早期商湯要招聘相關(guān)人才,其實很難,也因為當(dāng)時國內(nèi)確實沒有什么這方面的人才。顏深根便負(fù)責(zé)幫商湯在系統(tǒng)領(lǐng)域跟高校建立合作,包括清北上交、南洋理工、中科院計算所等等。均是以項目的形式合作,學(xué)校提供學(xué)生,商湯給項目。
三是給商湯創(chuàng)收。顏深根負(fù)責(zé)搭建的計算平臺是業(yè)內(nèi)比較前沿的,然后商湯把該計算平臺做成一個產(chǎn)品對外輸出,這塊給商湯帶來了上億的收入。
從商湯出來后,顏深根加入互聯(lián)網(wǎng)公司小紅書擔(dān)任AI平臺部負(fù)責(zé)人,但只干了兩個月就離開了,此時大模型風(fēng)頭正盛,他覺得這是一個不可錯失的機(jī)會,便決定創(chuàng)業(yè)。
后來通過單羿,顏深根了解到汪玉也準(zhǔn)備進(jìn)軍大模型,于是兩人一拍即合決定合作,創(chuàng)立了大模型公司無問芯穹,目標(biāo)是打造大模型軟硬件一體化最佳解決方案。
而單羿從百度出來后,選擇加入余凱創(chuàng)立的AI芯片公司地平線。
其實一開始余凱并沒有找他,從百度出來后,15年冬天余凱跑到硅谷去為自己的新公司挖人,當(dāng)時他想找一個既懂深度學(xué)習(xí)又懂芯片實現(xiàn)的人,但問了一圈都沒找到合適的,因為這不是做芯片的事情,是一個高性能計算的事情,當(dāng)時硅谷那幫設(shè)計芯片的人沒幾個懂深度學(xué)習(xí)。
后來謝源告訴余凱可以找單羿,余凱這才知道單羿在百度IDL的工作。謝源算是單羿的祖師爺,因為汪玉的博士導(dǎo)師其一就是謝源,而汪玉又是單羿的博士導(dǎo)師。
余凱一開始還不相信單羿的能力,問謝源這人能行嗎,謝源說除了單羿他可能再也找不到更適合的人了。
就這樣單羿成為地平線前十號員工,是其中唯一一個知道怎么把算法芯片化的人。
在地平線,單羿做了一個人臉檢測的算法加速,黃暢當(dāng)時做算法的訓(xùn)練,單羿負(fù)責(zé)把它翻譯成芯片的代碼。黃暢曾在百度深度學(xué)習(xí)研究院主任架構(gòu)師,是余凱的下屬,2015年跟著余凱出來共同創(chuàng)立了地平線。
在地平線一段時間后,單羿有了自己創(chuàng)業(yè)的想法,于是和汪玉、姚頌、韓松一起創(chuàng)立了AI芯片公司深鑒科技。
沒想到很快受到國際大廠青睞,被收購了。
16年10月深鑒科技成立,2018年深鑒科技便以3億美金的價格賣給了美國芯片巨頭FPGA賽靈思,在業(yè)內(nèi)引起一片轟動。
賽靈思收購深鑒是蓄謀已久,因為當(dāng)時它想用AI跟英偉達(dá)競爭,補充自身AI能力最快速的辦法就是收購一個AI公司,當(dāng)時全世界范圍內(nèi)的標(biāo)的不多,而深鑒是最大最早的團(tuán)隊。完成收購后賽靈思便以深鑒為核心搭建了自己的AI體系。
當(dāng)時,深鑒獲得了三星、賽靈思、聯(lián)發(fā)科國際資本的戰(zhàn)略投資,還量產(chǎn)了國內(nèi)首批AI芯片-聽濤(28nm),拿到了GM、斯巴魯、TOYOTA等很多POC(這些POC也讓賽靈思看到要在汽車領(lǐng)域去做智能化,做自動駕駛,深鑒是最好的選擇),一切都在向好發(fā)展,為什么決定被收購呢?
2017年底,單羿跟汪玉談賽靈思收購的事情,他認(rèn)為靠他們自己不一定有能力把AI芯片商業(yè)化,必須借助大品牌的力量。
如果自己做商業(yè)化面臨最主要的問題是:客戶在哪里?中國客戶都想自己做,???、BAT都在自研芯片,那機(jī)會只可能在海外,被賽靈思收購便是進(jìn)入海外市場的最便捷途徑。
作為團(tuán)隊的負(fù)責(zé)人,單羿先隨著深鑒打包進(jìn)入賽靈思,后來又跟隨賽靈思被收購進(jìn)入了AMD。
第一次被收購后,單羿帶著100多人去了研發(fā)線,剛進(jìn)去時他跟賽靈思CEO聊,想要300個人做端到端的解決方案,但是賽靈思沒同意,說他們是賣芯片,不是賣解決方案,不能搶客戶的生意。
到了AMD,四年后單羿的團(tuán)隊終于達(dá)到了300人,但也花了三年時間。
而且這300人不只是做自動駕駛,還負(fù)責(zé)很多方向,包括汽車、工業(yè)、醫(yī)療、數(shù)據(jù)中心、筆記本、游戲,單羿想做的事情在賽靈思始終都沒能實現(xiàn),這也導(dǎo)致他在賽靈思、AMD認(rèn)清了一個現(xiàn)實——Founder(創(chuàng)始人)跟職業(yè)經(jīng)理人是不同的。
“創(chuàng)始人能決定整個企業(yè)的走向,正如英偉達(dá)在很多關(guān)鍵節(jié)點做出了更迅速果決的選擇,因為黃仁勛不僅僅是CEO,還是創(chuàng)始人。”
在外企的四年,單羿的商業(yè)愿景一直沒能得到完全滿足。因為他被定位成一個研發(fā)的負(fù)責(zé)人,而不是一個BU的負(fù)責(zé)人,除了研發(fā)之外,他期待能主導(dǎo)技術(shù)-商業(yè)-資本的完整鏈路,從而改變行業(yè)。
所以2022年單羿成為自由身后,便跟百度IDL、地平線的同事都大龍一起創(chuàng)立了鑒智機(jī)器人,主打以視覺3D理解為核心的下一代自動駕駛方案。
這一次,他終于能再次以Founder的身份引領(lǐng)一家公司,在自動駕駛領(lǐng)域一展宏圖。
單羿希望能親自掌舵一家AI公司,他期待能用AI改變世界,改變整個汽車行業(yè),在當(dāng)前很多人并不相信AI能改變世界的環(huán)境里:
All in AI,這點很重要!
后記
吳韌一直有一個沒有實現(xiàn)的夢,就是做職業(yè)攝影師。閑暇之余他喜歡帶上相機(jī),去戶外觀察、捕捉大自然的奇妙瞬間。
他最愛拍的是猛禽,因為猛禽是一種掠食性動物,處于食物鏈頂端,它們行動起來快如閃電。
從猛禽的存活之道中吳韌感受到了大自然的殘酷——生存,需要速度!而吳韌的一生也一直游走在時代的前列,吳韌認(rèn)為這得益于自己總能站在更高更大的維度去看待周遭世界。
2014年,吳韌懷揣著做超級計算機(jī)的夢,從硅谷回來加入百度,在他的一生中,從1986年編寫出了中國大陸第一個中國象棋程序時,他便一直篤信計算能力的重要性。
他曾說過,當(dāng)計算能力足夠強(qiáng)的時候,人工智能就會獲得人類右腦的能力——直覺。
2014年,吳韌曾在GTC大會上首次提出兩個公式“大數(shù)據(jù)+深度學(xué)習(xí)+高性能計算=更高智能”, 和 “大數(shù)據(jù)+深度學(xué)習(xí)+異構(gòu)計算=成功”公式。
不曾想十年后,OpenAI踐行著“大數(shù)據(jù)+強(qiáng)算法+大算力”訓(xùn)練出了GPT大模型,人工智能第一次涌現(xiàn),世界因此迎來狂歡。
吳韌無形之中成為大模型的暴力美學(xué)早期推動者之一。
(正是有了如文中他們在AI Infra的探索與貢獻(xiàn),中國的AI事業(yè)才能站在前人辛苦打下的地基上持續(xù)前進(jìn),誠如今天的大模型,不日雷峰網(wǎng)將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領(lǐng)了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)
算力作為大模型的基礎(chǔ)設(shè)施,支撐著算法和數(shù)據(jù),進(jìn)而影響著AI領(lǐng)域的發(fā)展,今天,AI算法模型對于算力的巨大需求,推動了芯片業(yè)的發(fā)展,算力的重要性日益凸顯。在當(dāng)前大模型創(chuàng)業(yè)中,甚至有著“得算力者得天下”的趨勢。
而當(dāng)年因為吳韌或者說是百度的超級計算機(jī)夢,讓劉文志、顏深根、單羿、孫剛……這幾人相聚在百度IDL異構(gòu)計算團(tuán)隊。
這位一直致力于站在更高更大的緯度去看周遭世界的老人,如今已是花甲之年,雖然當(dāng)年的超級計算機(jī)事業(yè)中道折戟,但他在AI領(lǐng)域的超前認(rèn)知一直影響著這些學(xué)生,今天,他們?nèi)慷汲蔀楦咝阅苡嬎恪I領(lǐng)域的佼佼者,有些人的風(fēng)采甚至橫跨整個AI領(lǐng)域。
未來,吳韌在高性能計算領(lǐng)域那些未實現(xiàn)的夢,還等待著他的學(xué)生們繼續(xù)去豐滿。
數(shù)風(fēng)流人物,還看今朝。
參考資料:
【獨家對話】從游走世界知名公司到創(chuàng)辦Novumind,吳韌如何練就頂級計算科學(xué)家本色?丨Xtecher 封面
關(guān)于 AI Infra,更多行業(yè)交流歡迎添加作者微信 XXX,稍后我們也將推出《袁進(jìn)輝與他的分布式計算江湖》,歡迎交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。