大模型「點火」，AI for Science 提速

本文作者：黃楠

2023-09-15 14:50

導語：技術探路者仰望星空，產品開發(fā)者腳踏實地，騰訊二者都要。

在生產環(huán)節(jié)中，95% 是一個分水嶺。

以人為對照標準，人工的準確率在 92% 至 98% 之間，因此，行業(yè)對機器容忍度的判別標準取之中位數，未達到 95% 的部分，無論是 80% 乃至 90% 的準確率，對模型生成容忍度極低的生產環(huán)節(jié)而言，二者沒有區(qū)別。

過去幾年，以計算機視覺、語音等為代表的 AI 技術領域取得了極大的成功，但受限于模型可解釋性差、通用性不強等弊端，AI 的大規(guī)模道路難以展開。

直至大模型技術出現，它通過與人類的交互中不斷學習，進而獲得更好解決問題的能力。這當中，行業(yè) Know-How 在生成內容中起到關鍵作用，對醫(yī)學、金融、安全、法律等領域帶來了變革性的影響。

9 月 7 日，在 2023 騰訊全球數字生態(tài)大會- Techo 騰訊科學家專場上，論壇聯手 CSIG 前沿探索俱樂部及新基石科學基金會，邀請了騰訊各大實驗室科學家及“科學探索獎”獲獎人，聚焦科學前沿探索和技術應用，以對話的形式，分享最新的落地成果。

大模型技術探索和落地方興未艾，一個業(yè)界共識是，大模型深入行業(yè)，與各個領域結合，在激發(fā)生產力的同時，對原有生產鏈條也將帶來顛覆性的影響，從底層出發(fā)向上層邏輯的重塑，最終逐漸影響到技術研發(fā)、產品開發(fā)、服務消費等各個環(huán)節(jié)。

多位研究者在與雷峰網交談中提到，AI 技術正被用于生命科學、醫(yī)學制藥等研發(fā)創(chuàng)新中，越來越多人開始意識到，大模型為新科學規(guī)律的發(fā)現和 AI for Science 發(fā)展提供了更便捷的工具，有學者預測，未來十年內，科學范式將會被生成式 AI 重新定義。

距離科研更近的人，深知復雜科學問題背后的前沿與顛覆，而貼近產業(yè)側的開發(fā)者，更清楚 AI 技術在應用階段的挑戰(zhàn)與機遇。大模型的出現對 AI for Science 有什么意義？又會對其發(fā)展帶來哪些影響？

能力越大，責任越大

“知識增強型”行業(yè)大模型已成為共識，是更接近人類大腦、釋放智能生產力的 AI 落地范式，將行業(yè)領域知識注入模型當中，提升模型對知識的記憶和推理能力，可以有效填補基礎模型和場景之間的認知鴻溝。

但在實際操作中，從業(yè)者往往會發(fā)現事情并沒有那么簡單：

一家從事醫(yī)療 AI 結合大模型技術服務商告訴雷峰網(公眾號：雷峰網)，從 B 端側來說，醫(yī)療大模型可以劃分為診前、診中和診后三個階段，為了應用不同階段會產生的問題，因此，醫(yī)療領域大模型在訓練要求就很高。

比如說診前，過去醫(yī)生在看病時，需要事先了解許多患者相關的信息和問題，根據收集到的信息判斷大概的情況，這個過程耗時長且占用精力。有了大模型后，這部分工作可以借助 GPT 來完成，醫(yī)生通過向模型注入醫(yī)療數據和自己知識體系，GPT 可模仿醫(yī)生的習慣、提前跟患者了解病理信息。

但一個亟待解決的難題是：醫(yī)療環(huán)境中對深層語義的要求很高，患者在與醫(yī)生溝通時，很少涉及有指征性的專業(yè)醫(yī)學術語，患者有哪些癥狀是由醫(yī)生根據其描述來判斷，當這件事交給模型去做時，它能否將患者的描述與對應的病理問題對齊、做出正確的判斷，對構建醫(yī)療大模型而言是個不小的挑戰(zhàn)。

醫(yī)學非常復雜，如何與大模型等為代表的 AI 技術相結合，成為學界和工業(yè)界共同關注的焦點。

在 Techo 騰訊科學家專場上，北京郵電大學信息與通信工程學院特聘研究員、2022 年“科學探索獎”信息電子領域獲獎人王光宇，與騰訊杰出科學家、騰訊天衍實驗室負責人鄭冶楓，分別從學術視角和工業(yè)視角，就對流行病研究、監(jiān)測及防控的技術思路的異同點，以及大模型、多模態(tài)在醫(yī)療領域的落地展開了探討和暢想。

大模型「點火」，AI for Science 提速

鄭冶楓對話王光宇

為了解決醫(yī)療大模型“醫(yī)學專業(yè)度”和可信任問題，騰訊在醫(yī)療大模型中加入了天衍實驗室多年來在醫(yī)療領域積累的專業(yè) Know-How，涵蓋 285 萬醫(yī)學實體、1250 萬醫(yī)學關系等結構化數據，基本可覆蓋 98% 的醫(yī)學知識。

鄭冶楓指出，通過把專業(yè)知識給到模型，讓模型推理時候參考這些知識，比如在患者提問的問題里，采用自然理解語言技術，自動提取一些相關的疾病，相關的藥品，在數據庫里將相關知識給到模型，可以讓模型去做更準確的問答。

同時，打造高質量、專業(yè)的醫(yī)療大模型，對于提升科學抗議的準確性也具有重要作用。此前，王光宇和團隊在研究中發(fā)現，通過預訓練大模型的技術，構建一個通用的蛋白質相互作用的框架，可以有效計算病毒蛋白質對人體的親和力，從而更好地預測病毒未來哪些可能的突變位點發(fā)生之后，對人的感染性會更強。

而伴隨著大模型深入具體場景、具體應用和具體問題，它所展現出來的影響力不斷擴大，其實踐和落地的邊界也得以進一步拓寬。

清華大學計算機科學與技術系教授、2020 年“科學探索獎”信息電子領域獲獎人朱軍，與騰訊杰出科學家、騰訊安全玄武實驗室負責人于旸都是聚焦 AI 安全前沿研究的，面對新興技術風口下的網絡安全發(fā)展趨勢及挑戰(zhàn)，他們在對話中圍繞相關話題進行了探討分析。

大模型「點火」，AI for Science 提速

于旸對話朱軍

現階段的網絡安全威脅已呈現出全球化趨勢，不夸張的說，地球上每一分鐘都有還沒睡覺的攻擊者存在。如何防范AI 安全和它帶來的攻擊賦能問題？于旸提出，借助大模型技術加持，安全人員可以有效改變之前需要通過“投喂”大量相關數據進行學習訓練的難題，僅需要做少量的調整，即可實現指令的執(zhí)行。同時，借助外部工具并對處理結果進行分析，可判斷是否需要再用別的工具，從而完成任務需求。

這樣一來，大模型的能力就越大，能夠改變的領域也越多，所肩負的責任也越大。

朱軍也表示，AI 提升了復雜的推理決策能力后，能夠在較少的數據標注的情況下，通過不斷地交互和試錯，提升大模型自身能力，并調整策略，可實現對網絡安全的助力與增效，這將給整個安全行業(yè)帶來巨大的變化。

可以看到，以混元通用大模型為基座、結合行業(yè)大模型兩條腿走路，騰訊正對外釋放出大模型深入行業(yè)的服務能力，這也是大模型落地最為清晰的一個路徑。

新科學，新范式

2018 年，AI for Science 的概念被提出，為了解決當前科研范式下面臨的諸多難題，AI 技術成為輔助科學家的工具。

其中最具代表性的工作之一，是 2021 年提出的 AlphaFold2 ，開源僅一周的時間里，98.5% 的人類蛋白質結構被 AlphaFold2 所預測，而在此之前，全球多少頂尖科學家耗時數十年的努力，也只解碼了覆蓋人類蛋白質序列中 17% 的氨基酸殘基。

又例如今天爆火的大模型和數據庫，可以有效提高處理海量數據、整合知識的效率。

自十五、十六世紀以來，科學發(fā)現以兩條路徑展開：一是基于第一性原理，對物理世界基本理論的探索；其二，則是以數據驅動的方式，對應用基本規(guī)律的歸納。

受量子力學建立的影響，第一條路徑瀕臨瓶頸，多數科學問題在理論基礎上、可使用相關的物理模型進行求解。進入真實場景中，面對復雜環(huán)境里的實際問題，量子計算產業(yè)熱潮興起，應用潛力大，但現實的問題是，其成長周期還很漫長。

中國科學技術大學教授、2022年“科學探索獎”數學物理學領域獲獎人朱曉波與騰訊杰出科學家、騰訊量子實驗室負責人張勝譽二人在交談中就提到，AIGC 對于量子科研或更廣范圍的科學會起到非常大、非常深遠的影響。

大模型「點火」，AI for Science 提速

張勝譽對話朱曉波

目前，雖然學界與工業(yè)界在關于量子計算研究與應用的探索上有重疊，但受不同思維方式的影響，學界更關注實驗室場景下、將事情做得多好，做成；而工業(yè)界則更多考慮到研究能否落地，落地后所產生的價值、可規(guī)模化的商業(yè)價值等。

舉個例子，在實驗室驗證量子算法在某些問題上、最終會比經典算法跑得更快，可能對學界而言是個有價值的工作，但對于具體產業(yè)應用來說，距離能夠使用還有很長的一段距離要走。

而在以數據為驅動的第二條路徑中，小規(guī)模數據僅限于粗顆粒度的模擬與預測，要提升算法模型的能力，則離不開更大規(guī)模的數據支撐。

數據的重要性之于技術發(fā)展長期存在。但在國內，高質量、經梳理過的數據短缺是一大問題，特別是有效的中文數據更是稀缺。此外，隨著數據量級的增加，僅依賴傳統的數據處理方式，還會面臨計算代價激增、數據分析效果遞減的問題。

以多媒體通信為例，傳統多媒體應用中的數字化信息數據量龐大，對存儲器的存儲容量、網絡帶寬以及計算機的處理速度等都有較高要求，很難完全通過增加硬件設施來滿足現實的需求。因此，基于腦電信號的智能信息通信成為一個熱門的研究方向。

清華大學電子工程系教授、2021年“科學探索獎”信息電子領域獲獎人陶曉明，與騰訊杰出科學家、騰訊多媒體實驗室負責人劉杉在對話中指出，通過對大腦在感知和信息處理機制方面的研究和理解，可以探索更加智能化的、高效的數據處理和傳輸方法。

與傳統通信場景不同，廣域場景下，受到資源限制、環(huán)境復雜等因素影響，通信需求也會受到一定的干擾，劉杉團隊此前的工作經驗，為制定特定場景的壓縮和傳輸標準可提供參考性建議；而在某些資源受限的場景下，壓縮傳輸正展現出越來越重要的角色。

陶曉明表示，在未來面向機器視覺的語義通信方面，結合視頻編碼和語義通信，將可實現特定場景下對關鍵語義信息的更好保護，提高通信的智能化和效率。

大模型「點火」，AI for Science 提速

劉杉對話陶曉明

今天，大模型之于技術變革和生產力解放的積極意義已經顯現，不局限于物理世界，AI 對生物世界的探索和理解也在生成。

一位從事智能產業(yè)研究的科研人員告訴雷峰網，目前 AI 研究中所使用的許多數據，是科學家們基于舊范式所得的數據基礎，通過把大模型分布調整至可解決具體任務的參數，并借助 Prompt 對數據再次收集，可獲得更適合大模型發(fā)展、AI 進步的新數據。

可以預想，或許在不久的將來，將誕生一個吸收了海量科學訓練數據的大模型，在理解科學知識的基礎上構建出新的假設，產生新的科學發(fā)現的可能性，反哺科學研究，從而推動 AI for Science 進一步發(fā)展。

仰望星空，腳踏實地

物理科學家狄拉克曾預言，尋求數據建模所需要的基本規(guī)律的任務已大體完成：困難只在于這些定律的應用，得到的方程一般都太復雜而無法求解。

直至二十世紀五十年代，電子計算機投入使用，以及微分方程數值方法的出現，人類自此實現了從基本原理出發(fā)解決實際問題的能力，并構建起現代工業(yè)和技術賴以生存的基礎。

而今，人工智能技術的發(fā)展，AI for Science 作為一個正處于茁壯成長期的新的交叉學科，已經成為科研范式的重要創(chuàng)新方向。

一項技術之所以能被賦予“變革”的重量，不能僅停留在實驗室階段，靠的是它的觸角得以延伸至各行各業(yè)，解決具體的問題，在應用階段激活生命力。

大模型之于 AI for Science 發(fā)展更是如此。

騰訊 AI Lab AI 醫(yī)療首席科學家姚建華在同北京大學理學部副主任、北京大學化學與分子工程學院教授、北京大學生物醫(yī)學前沿創(chuàng)新中心研究員高毅勤的對話中舉了這么一個例子。

大模型「點火」，AI for Science 提速

姚建華對話高毅勤

過去，新藥研發(fā)是一個漫長的過程。一項發(fā)表在 Drug Discovery Today 雜志的分析顯示，制藥巨頭平均每款新藥的成本高達 61.6 億美元，將一款新藥推向市場需要不少于 10 年的時間。但有了 AI 的幫助，不僅可以提升臨床試驗的效率和數據準確性，還能更清晰的進行病理分析，從而大幅提升新藥誕生的效率。

姚建華預測，人類疾病中特別關注的是蛋白，在可見的未來，針對蛋白來進行藥物的設計以及疾病的診療，將是 AI 應用落地創(chuàng)新的重要方向。這不僅需要科研人員對前沿技術保持強大的熱情、仰望星空，也需要如騰訊等工業(yè)界一同參與，腳踏實地，實現技術與產業(yè)的對接。

對此，高毅勤也表示，只有真正把基于大數據的，基于高精度的、高通量的科學計算的和基于由人工智能直接融合的實驗結合起來，才能更好地發(fā)揮 AI 在生命科學領域的重要作用。

科學研究的兩大根本目的，一是對于事物本質的研究和探索，二是解決實際的問題。

依托于這一科學理念，騰訊成立了天衍實驗室、AI Lab 實驗室、多媒體實驗室、玄武實驗室和量子實驗室，圍繞醫(yī)療、AI、多媒體、安全和量子五大領域，與業(yè)內頂級高校團隊和研究機構展開合作，共同探索底層及前沿技術創(chuàng)新及落地應用的可能性。

以天衍實驗室推出的騰訊醫(yī)療大模型為例，該大模型當前已具備文案生成、智能問答、病歷結構化和檢索、影像報告、輔助診斷等，可嵌入到診前、診中、診后的醫(yī)療環(huán)節(jié)全流程中去，完成“醫(yī)療咨詢平臺+大模型”的升級，提高醫(yī)生的就診效率，同時也能進一步做好患者的診后情況跟進。

又比如 AI for Science 領域，在 2022 年 NeurIPS 上，騰訊 AI Lab 與多家高校聯合團隊，獲得了第二屆 Open Catalyst Challenge（OCP）競賽冠軍，相較此前 MSRA 的冠軍方案，整體效果提升了 27.6%。

在 ICLR 2022 上，騰訊 AI Lab 提出了基于獨立 SE 等變模型的蛋白-蛋白交互系統 EquiDock，首次實現直接預測旋轉平移和形變，突破了傳統對接軟件中耗時不準的缺點，并將預測速度提升達到 500 倍。

每個行業(yè)有每個行業(yè)的難題，由于細分場景的數量難以統計，長期以來，提供算法、模型的 AI 公司往往難以洞悉每個行業(yè)自身的特殊場景需求。

為此，在量子計算研究領域，騰訊量子實驗室已構建了包括組合優(yōu)化問題的容錯量子算法，中等規(guī)模含噪（NISQ）的量子算法，量子電路的優(yōu)化，量子噪聲的刻畫等量子算法和軟件在內的量子布局。在此基礎上，還同化學、材料、制藥、金融等行業(yè)合作，通過經典算法，AI，軟件開發(fā)，數據庫構建，工作流搭建，云平臺上的 SaaS 服務等多方面的理論和實踐研發(fā)，加速在工業(yè)領域的落地。

中國科學技術大學教授朱曉波對此頗有共鳴，他在對話中指出，得益于騰訊在產業(yè)界的巨大優(yōu)勢，可以基于此找到更有價值的應用場景，轉化成為量子計算機的算法，從而推動學術界努力提升量子計算的性能，在近期和遠期算法兩方面，真正實現讓量子計算機逐步“用起來”。

仰望星空，不忘腳踏實地。

而今，騰訊帶著混元大模型而來，深入領域中去，可以期待，在不久的未來與生物科學、醫(yī)學、量子計算、安全、多媒體等研究相結合，率先打響了大模型之于新科學的競賽，這亦是對科學范式變革的關鍵性探索。

經過數月的發(fā)展，雖然人們暫時還不清楚大模型在何種條件下可以實現能力“涌現”，例如到底需要多少神經元、多少參數，但相互作用已然出現。通過大模型研究，不僅可以成為解決復雜問題、提高計算效率的工具，更為探索 AI for Science 發(fā)展提供了系統性的借鑒思路。

（雷峰網雷峰網）

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。