機器學習與統(tǒng)計學的爭論，有意義嗎？

本文作者：蔣寶尚

2020-02-04 14:53

導語：沒意義

（雷鋒網出品）

統(tǒng)計學和機器學習之間是否涇渭分明一直學界爭論的焦點。

有的學者認為機器學習只是統(tǒng)計學披了一層光鮮的外衣。而另一些討論則認為涉及使用邏輯回歸或者廣義線性模型（GLM）的可以稱作機器學習；否則就不是。

還有一些觀點認為：是否執(zhí)行元分析或許是區(qū)分兩個領域的一個標準。

但，爭論兩者之間的邊界，真的有意義嗎？如果對這個問題進行嚴肅地思考，或許我們會發(fā)現，答案是否定的。

麻省理工Sam Finlayson 博士指出“過去關于機器學習和統(tǒng)計學之間的討論很大程度上沒有切中要害，因為這些討論要么忽略了歷史背景、要么‘回歸方法’歸屬模棱兩可”，因此這種爭論事實上毫無意義。

1、歷史背景的忽略：“機器學習”術語的誕生并不是為了區(qū)分統(tǒng)計學

機器學習與統(tǒng)計學的爭論，有意義嗎？

達特茅斯會議期間合影數千年來，研究者們一直夢想建造“智能”設備，但“人工智能”一詞卻是到1956年才出現。John McCarthy 在當時的達特茅斯會議上提出這個術語，并將人工智能定義為：制造智能機器的科學和工程。

至此之后，人工之智能術語使用并流行到了今天。

而McCarthy能在會議上說服參會者使用這一術語很大程度上因為這個定義本身就是非常模糊的。

在那個年代，致力于“智能”的科學家們的研究視角還未轉向“數據驅動”，而是專注于自動機理論、形式邏輯和控制論等東西。

也就是說McCarthy當時想要創(chuàng)造一個術語來容納所有這些范式，而不是傾向于任何特定的方法。

正是在這種情況下，Arthur Samuel（達特茅斯會議的與會者之一）在1959年提出了“機器學習”一詞，并將其定義為一種研究領域，即不進行顯式編程就可讓計算機進行學習的研究領域。

之所以有此定義是因為Samuels和他的同事們希望通過讓計算機擁有識別能力，并隨著時間的推移不斷改進這種能力來使得計算機變得更加“智能”。

在今天看來，這種研究方法似乎并不陌生，但先驅們卻花費了數十年才讓其成為AI研究的主導范式。

從當時研究者的意圖來看，機器學習是為了描述計算機的設計過程而創(chuàng)建的，該過程利用統(tǒng)計方法來改善性能。也就是說該術語是旨在與構建智能機器的非數據驅動方法形成對比，不是為了與統(tǒng)計學形成對比。

畢竟統(tǒng)計學重點使用數據驅動的方法為人類提供有效信息。

另一個被普遍認可的機器學習的定義來自于Tom M.Mitchell 在 1997年出版的教科書，他在書中提到：“機器學習領域涉及如何讓計算機程序通過經驗而自動改進的一類問題”。

另外，書中還有一個半正式定義：對于某類任務 T 和性能度量 P，計算機程序從經驗 E 中學習，然后它在任務 T 中的性能 P 隨著經驗 E 的提高而提高。

2、關于誰“擁有”回歸的爭論沒有抓住重點

機器學習與統(tǒng)計學的爭論，有意義嗎？

當前許多人試圖在統(tǒng)計方法和機器方法之間用二分法強硬的劃定界限，但這顯然是一種獨裁的專制。

有的人特別執(zhí)著的認為：回歸驅動的研究方法是統(tǒng)計學專屬，無論如何不能稱作機器學習。

此類觀點其實比目前“邏輯回歸等于計量經濟學”的觀點還要愚蠢，兩者同樣挑起了激烈的爭論。

六十年來機器學習社區(qū)一直在致力于“更好的計算機”，而并不關心是奇妙的方法還是統(tǒng)計數據哪個更優(yōu)。

這也是為什么大多數教授在機器學習課程教學的時候，花大精力來教授廣義線性模型及其變體。

所以說統(tǒng)計學在機器學習和人工智能的研究背景下是非常有意義的，機器學習術語涉及不同的方法，并致力于讓“程序”變得智能。坦率地說，任何段位的統(tǒng)計學家都不能斷言“脫離實際研究背景的統(tǒng)計學方法是有用的”。

回歸方法歸屬之爭其實在很大程度上同時低估了機器學習和統(tǒng)計，原因大致可以歸納為以下四個：

1.限制了經典統(tǒng)計方法在構建計算機程序方面所能發(fā)揮的核心作用；
2.忽略了機器學習對統(tǒng)計學的影響，實際上人工智能和計算機學科很大程度促進了統(tǒng)計學的復興。例如Judea Pearl的因果關系開辟了新的統(tǒng)計學范式；
3.統(tǒng)計學和機器學習之間“強硬”的二分法在一定程度上弱化了建模決策中的重要信息，并且這種分類有時候毫無意義。
4.當前機器學習和統(tǒng)計學的頂級研究學者大多同時屬于這兩個領域。

其實，當前有很多研究都突出了統(tǒng)計學家與機器學習研究人員的豐富互動，例如著名學者Rob Tibshirani和Trevor Hastie沒有糾結于方法論的邊界線，而是利用機器學習研究人員開發(fā)的工具，從而幫助完善統(tǒng)計學領域的研究。并不是說Hastie和Tibs發(fā)明了新方法，而是意味著這些方法已經影響了統(tǒng)計學家和機器學習研究人員的日常工作。

3、許多“爭論”在開始之前就已注定失敗

機器學習與統(tǒng)計學的爭論，有意義嗎？

目標的不同導致了方法和文化的差異，這也是為什么“機器學習”一詞的含義自誕生以來發(fā)生了如此大的變化。

語言中的脫節(jié)讓許多“爭論”在開始之前就已注定失敗。

如上文所述，機器學習這一研究領域之所以得以創(chuàng)立，便是由于計算機科學家試圖創(chuàng)建和理解智能計算機系統(tǒng)，至今依舊如此。

主要的機器學習應用包括語音識別、計算機視覺、機器人/自動系統(tǒng)、計算廣告、監(jiān)控、聊天機器人等等。在嘗試解決這些問題的過程中，機器學習研究者基本總是先從嘗試經典的統(tǒng)計學方法開始，例如相對簡單的廣義線性模型（GLM）。

當然，長年累月，計算機科學家也不斷提出了新的方法，讓機器學習這一工具日益強大。

與其他任意背景下的進化一樣，用于機器學習的統(tǒng)計學方法，其進化史也是在“物競天擇”的壓力下所形成的。與統(tǒng)計學家相比，機器學習研究者往往很少關注：理解算法背后所執(zhí)行的所有具體動作。這一點其實非常重要，并且越來越重要。

機器學習與統(tǒng)計學的爭論，有意義嗎？

雷鋒網制圖

他們通常最關注的是模型誤差。這樣就導致機器學習研究者開發(fā)的方法往往會更加靈活，甚至不惜以犧牲可解釋性為代價來實現更高的靈活性。這種離散式的進化，就很容易讓機器學習和完全基于方法的統(tǒng)計學研究之間的界限變得模糊。

此外，也導致不少統(tǒng)計學家并不了解機器學習的歷史。因此毫不驚訝地，他們會熱衷于采用任何其他的術語來定義機器學習領域，即便這種做法毫無必要。出于同樣的道理，基于“使用”的嚴格劃分現在變得非常復雜，實際上現在很多機器學習從業(yè)者，即便當他們僅僅是在應用機器學習方法來做純粹的數據分析，而不是驅動計算機程序時，他們依舊會稱他們是在做機器學習。

雖然從嚴格的歷史意義上而言，這種說法并不對，但是我認為也無需指責這種做法，因為這可能是出于習慣、文化背景或者“認為這種說法聽起來來很酷”的綜合影響。

所以在現實中，人們用到“機器學習”這個術語時，往往指的與機器學習本身非常不同的其他事情。人們可能用它來表達：“我正在用統(tǒng)計學方法來讓我設計的程序學習”或者“我正在設計可以部署到自動化系統(tǒng)中的數據分析”。

又或者表達的意思是：“我正在使用一個最初由機器學習社區(qū)開發(fā)的方法，如隨機森林，來做統(tǒng)計學數據分析”。而更普遍的情況是，他們使用這個詞是在說：“我自己是一個機器學習研究者，我就是在使用數據做機器學習研究，我怎么高興就怎么說?！?nbsp;

實際上，這一術語的不同用法并不令人驚訝也不成問題，因而這僅僅是由于語言的進化而導致的結果。然而當另一群人——數據科學家群起而辯“一個特定的項目是否能純粹地冠之以機器學習或者統(tǒng)計學，二者選其一”時，就非?；?。

在我看來，“數據科學家”這一術語原本就是由機器學習和統(tǒng)計學交匯而成的。而當這一爭論發(fā)生時，大家往往都帶著各不相同、定義模糊、并且表達不清的假設參與爭論，一開場便是爭論這些詞的意思。而隨后他們幾乎不會花時間去了解這些詞的出處或者聽對方真正要表達的是什么，而僅僅是相互之間隔空喊話，聲音大然而卻并不清晰。

4、這整場“爭論”差不多就是在浪費時間

現在，讓我們將這些真實的問題擺在桌面上來談：如今有很多機器學習研究者（或者至少是機器學習愛好者）對統(tǒng)計學的理解尚有不足。有一部分人確實就是一位機器學習研究者，然而也有許多專業(yè)的統(tǒng)計學家有時候也會認為自己是機器學習研究者。

而更嚴重的現實情況是，機器學習研究的發(fā)展走得如此之快，并且常常在文化上與統(tǒng)計學領域脫節(jié)得如此之遠，以至于我認為對于即便是非常杰出的機器學習研究者而言，對統(tǒng)計學的某些部分“重新發(fā)現”或者“重新發(fā)明”都非常普遍。

這是個問題，也是種浪費！最后，由于大量第三方應用研究者非常喜歡用“機器學習”這個術語：為了讓論文顯得更時髦而在論文中大量應用這一術語，即便現實中他們所謂的“機器學習”既不是構建自動化系統(tǒng)也沒有使用機器學習領域提出的方法。

（雷鋒網）我認為，所有這些問題的解決方法，就是讓人們更多地意識到：大多數機器學習的數據方法實際上就存在于統(tǒng)計學中。無論這些方法是用到了數據分析中還是設計智能系統(tǒng)中，我們的首要任務是培養(yǎng)對統(tǒng)計學原理的深刻理解，而不是執(zhí)拗于機器學習和統(tǒng)計學領域的劃分是正確還是錯誤。

關于很多工作是機器學習還是統(tǒng)計學的無休止的爭論，最終只會分散人們的注意力，讓他們無法花更多精力來進行“如何通過正確匹配問題和特定的工具來很好地完成工作”的必要對話和交流——相對而言，這才是更重要的事。與此同時，人們固執(zhí)己見地對統(tǒng)計學和機器學習方法錯誤的二分法，會讓很多研究者進一步養(yǎng)成沒有必要就不使用復雜方法的習慣，僅僅是為了讓自己感覺像是在做“真正的機器學習”。

這也會直接導致，人們會為了讓自己的工作在方法論上聽起來更時髦，就肆無忌憚地把自己的工作稱作機器學習。

統(tǒng)計計算的黃金時代，正在推動機器學習和統(tǒng)計學領域變得空前的緊密。當然，機器學習研究誕生于計算機科學體系，而當代的統(tǒng)計學家越來越多地依賴于計算機科學界幾十年來開創(chuàng)的算法和軟件棧。他們也越來越多地發(fā)現機器學習研究者所提出的方法的用處，例如高維度回歸，這一點尤其體現在計算生物學領域。

另一方面，機器學習社區(qū)也越來越多地關注可解釋性、公平性、可驗證的魯棒性等主題，這也讓很多研究者優(yōu)先考慮讓機器學習輸出的數值更直接地與傳統(tǒng)的統(tǒng)計值一致。至少，即便是在盡可能地使用最復雜的架構來部署系統(tǒng)時，人們也普遍意識到，使用經典的統(tǒng)計學來測量和評估機器學習模型的性能很有必要。