深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

本文作者：李尊

2016-08-22 20:51

導語：Geoffrey Everest Hinton是反向傳播算法和對比散度算法的發(fā)明人之一，也是深度學習的積極推動者，本文是他對于深度學習介紹的演講PPT。

本文聯(lián)合編譯：Blake、高斐

雷鋒網(wǎng)注：Geoffrey Everest Hinton（杰弗里·埃弗里斯特·辛頓）是一位英國出生的計算機學家和心理學家，以其在神經(jīng)網(wǎng)絡方面的貢獻聞名。辛頓是反向傳播算法和對比散度算法的發(fā)明人之一，也是深度學習的積極推動者，目前任職于多倫多大學與Google。作為人工智能領域的三位奠基人之一，早在30年前，辛頓就已經(jīng)在深度學習領域留下了自己的烙印。然而，直到計算機的性能達到深度學習的要求，辛頓才開始在學術界以外得到自己應得的廣泛認可，本文是他對于深度學習介紹的演講PPT。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習

Geoffrey Hinton

多倫多大學&Google

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

機器學習任務的頻譜

典型的統(tǒng)計學方法

低維度數(shù)據(jù)（例如，低于1000個維度）
數(shù)據(jù)中存在大量的噪音
數(shù)據(jù)不存在健全的結構，一個極簡模型如何表示數(shù)據(jù)結構
主要問題在于區(qū)分真正結構與數(shù)據(jù)噪音

人工智能(AI)

高維度數(shù)據(jù)（例如，多于1000個維度）
如果合理處理噪音，噪音不足以模糊數(shù)據(jù)的內在結構。
數(shù)據(jù)中有龐大得結構，數(shù)據(jù)結構過于復雜，難以用一個簡單的模型表示。
主要問題在于弄清楚如何表示復雜的數(shù)據(jù)結構，使得這種結構易于學習

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習簡要發(fā)展史

用于學習多層非線性特征的反向傳播算法于20世紀70年代和80年代被提出來并得到多次發(fā)展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當時，反向傳播算法具有廣闊的應用前景，然而，到20世紀90年代，機器學習領域的眾多研究者開始停止運用該算法，原因如下：

—該算法不能有效利用多數(shù)隱藏層（除了其在“時延”和卷積網(wǎng)的應用）。
—該算法不能在遞歸網(wǎng)絡中發(fā)揮有效作用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

如何學習多層特征(~1985)

運用反向傳播錯誤信號以獲得用于學習的衍生工具：

首先輸入輸入信息向量，通過隱藏層，最終得到輸出結果，對比輸出結果與正確答案得到錯誤信號。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

隨機梯度下降

計算少量隨機“小批量”訓練數(shù)據(jù)的所有權重值的梯度矢量。

—這將對所有訓練數(shù)據(jù)的梯度矢量進行隨機評估。
—若權重值完全出現(xiàn)錯誤，即便獲得一個耗費多，精確地估計值也是無意義的。

略微減小梯度估計值，以更新所有權重值。

—與其他更好地方法相比，這種原始的優(yōu)化方法能夠在大數(shù)據(jù)集中發(fā)揮更好的作用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

反向傳播算法到底是哪里出錯了？——20世紀90年代的觀點

反向傳播算法需要大量的標記過的訓練數(shù)據(jù)

— 幾乎所有的數(shù)據(jù)都是未經(jīng)標記的。

反向傳播算法未能規(guī)劃好學習時間

— 在存在眾多隱藏層的網(wǎng)絡中，該算法學習速度非常慢。

在局部優(yōu)化過程中，反向傳播算法會出現(xiàn)卡殼現(xiàn)象

— 該算法通常能夠得到極好的運用，但是從來沒有極好的理論。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

運用無監(jiān)督學習方式，克服反向傳播算法的局限性

保持運用梯度方法的有效性與簡潔性，以調整權重值，同時運用這種方法為感官輸入信息構建結構。

— 調整權重，保證一個生成模型生成感官輸入信息的最大可能性。
— 學習圖像，而非標記過的圖像。
如果你想要從事計算機視覺領域的研究，首選學習計算機制圖法。

我們應當學習哪種生成模型？

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

隨機二進制單位（一種奇數(shù)選擇方法）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

受限玻爾茲曼機

限制層與層之間的連接性，使學習變得更為簡單。

—只有一層隨機二進制隱藏單元。
—隱藏層之間無連接。

在受限玻爾茲曼機中，鑒于可視狀態(tài)，隱藏層之間存在有條件相互獨立關系。

— 當存在一個既定的數(shù)據(jù)矢量，我們能夠快速從后驗分布中獲取一個無偏差樣本。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

受限玻爾茲曼機最大可能性學習算法圖

由可視單元的一個訓練矢量V開頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉換。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

快速學習受限玻爾茲曼機的方法

由可視單元的一個訓練矢量開頭
更新所有平行的隱藏單元
更新所有平行的可視單元，以實現(xiàn)重構
再次更新隱藏單元

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

旁白

通過對運用兩種不同方法獲得的預測值取平均數(shù)，Netflix 能夠預測出你對一部電影的喜愛程度。
其中的一種方法使用經(jīng)過快速近似學習算法的一種算法版本訓練的受限玻爾茲曼機。

這是受限玻爾茲曼機的首次重大應用。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

訓練深度網(wǎng)絡（受限玻爾茲曼機飽受歡迎的主要原因在于的到蓋茨比基金的支持）

首先訓練直接從像素中獲取輸入信息的特征層。
接著，將這些講過訓練的特征視為像素，激活這些特征，在第二隱藏層學習這些特征的特征。

如此便生成一個多層生成模型。

每當我們添加一個特征層，便能夠得到訓練數(shù)據(jù)的對數(shù)概率一個更好的可變下限，這一點可以得到證實。

這一證明過程是非常復雜的（但是對于學術界同仁之間相互尊重極為重要）。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

精細調整，以實現(xiàn)區(qū)分這一目的

預訓練：首先，一次只學習一個特征層，不使用標記過的信息。
精細調增：增添最后一個標記單元層，反向計算標記單元的誤差，以便精細調整那些在無監(jiān)督前期訓練階段學會的特征。
這種精細調整方法能夠克服標準反向傳播算法的兩個主要局限性。

因為未經(jīng)標記數(shù)據(jù)而發(fā)現(xiàn)好的特征，我們要求使用更少的標記。

由于在預訓練過程中，一次僅訓練一層，并且是從可感知的特征進行精細調整的，學習速度變得越來越快。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

為預訓練深層神經(jīng)網(wǎng)構建聲學模型

在使用雙手機模型的標準后期處理之后，獲得23.0%的手機錯誤率。
TIMIT之前獲得最優(yōu)結果為24.4%，這便要求對幾個模型的結果取平均值。

通過較短時間的前期處理，現(xiàn)在我們在這一塊兒能夠做的更好。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

接下來會發(fā)生什么

當預訓練深層神經(jīng)網(wǎng)絡的性能優(yōu)于在MSR演講組一致推崇的高斯混合模型，IBM與Google對這類深層神經(jīng)網(wǎng)絡實行進一步發(fā)展。
直至2012年，安卓系統(tǒng)的聲音搜索功能便是運用一個基于深層神經(jīng)網(wǎng)絡的聲學模型。
現(xiàn)在所有起到領導作用的團隊均使用神經(jīng)網(wǎng)絡，這一技術正在向性能越來越好的遞歸神經(jīng)網(wǎng)絡發(fā)展。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

圖像網(wǎng)的ILSVRC-2012競爭

擁有120萬高分辨率訓練圖像的數(shù)據(jù)集。
1000種不同類別的物體。
任務是在前5次猜測中猜出“正確”的。
在這個數(shù)據(jù)集中，對現(xiàn)有的一些計算機視覺方法進行測試。
2012年的計算機視覺系統(tǒng)使用運用手工工程的復雜的多層系統(tǒng)。

早期階段主要通過優(yōu)化一些參數(shù)得到調整。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

ILSVRC-2012競爭的錯誤率

2015年深層卷積神經(jīng)網(wǎng) 5%
多倫多大學（Krizhevsky等，2012） 16%
東京大學 26%
牛津大學(Zisserman 等) 27%
INRIA(法國國家科學院)與XRCE（歐洲施樂研究中心） 27%
阿姆斯特丹大學 29%

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

針對Imagenet的神經(jīng)網(wǎng)絡

Alex Krizhevsky等在NIPS 2012開發(fā)了一個非常深的卷積神經(jīng)網(wǎng)絡（Le Cunn 1987），它的架構包括：

l 7個隱藏層（不包括最大池化層）
l 早期的層級是卷積的
l 最后兩層是全局相連的

激活函數(shù)是每個隱層的修正線性單元
這些訓練速度快得多，且比邏輯單元要更具表現(xiàn)力
全局連接層擁有最多的參數(shù)

Dropout用來防止這些層級過擬合

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

在測試集上的樣本（以及神經(jīng)網(wǎng)絡猜測結果）

獵豹（豹雪豹埃及貓）
高速列車（小轎車地鐵電車）
放大鏡（剪刀、放大鏡、煎鍋、聽診器）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

修正線性單元

使用邏輯彎曲而非線性神經(jīng)進行修正

y = max(0,x)

這種非線性使得深度網(wǎng)絡更易訓練，在處理真實值的時候也表現(xiàn)的更好。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

Dropout：平均多個大型神經(jīng)網(wǎng)絡的有效方式

設想一個包括一個隱層的神經(jīng)網(wǎng)絡
每次提出一個訓練樣本時，隨機以0.5的可能性省略一個隱藏單元
因此我們隨機從2^H不同的架構中取樣

所有的架構權重相同

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

Dropout作為一種模型平均形式

我們從2^H模型取樣。只有一部分模型層級訓練過，且它們只訓練過一個樣本。
權重共享意味著它們中每個模型都是十分正則化的

這比試著將權重保持在較少狀態(tài)更能實現(xiàn)好的正則化

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

在測試的時候我們做些什么？

我們能對許多不同的架構進行取樣，然后在它們的輸出分布中取幾何平均數(shù)。
能用上所有的隱藏單元更好，但是要將它們的輸入權重減半
這恰好計算了所有2^H模型預測的幾何平均數(shù)
在有更多的隱層的情況下，測試時期將權重減半是唯一一種模型平均的近似值，但是它得到結果不錯

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

1986年提出的方向傳播算法哪里錯了？

關于它為什么失敗，我們得出的結論都錯了。真正的原因是：

1. 我們的標記數(shù)據(jù)集太小了。（幾千倍的差異）
2. 我們的運算能力太慢了。（百萬倍的差異）
3. 我們進行權重初始化的方式錯了。
4. 我們使用了錯誤的非線性類別。

幾年前，Jeff Dean認為如果計算能力足夠的話，神經(jīng)網(wǎng)絡也許能夠做到一些非常了不起的事情。

他建立許多架構讓一些大型神經(jīng)網(wǎng)絡在Google的數(shù)據(jù)中心核心區(qū)塊上進行訓練。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

卷積神經(jīng)網(wǎng)絡（部分復雜細節(jié)已略去）

有關卷積網(wǎng)絡最好的類型可以去查看Hochreiter和Schmidhuber于1997年發(fā)布文章的細節(jié)。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡十分強大，因為它們結合了兩種特性。

l 分布式隱層允許它們有效存儲之前的信息
l 非線性動態(tài)允許它們以復雜的方式更新隱層
l 深度越深，性能更好

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

機器翻譯的一種全新方式（Suskever, Vinyals和Le，2014）

針對每種語言，我們都有一個深度編碼器RNN和一個深度解碼器RNN
針對原始語言的編碼器RNN按照語句中文本順序進行閱讀

它最終的隱層表示的就是語句所要表達的含義。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

針對翻譯分布的一個解碼器RNN

首先它輸出的是可能的首個單詞的概率分布
我們在這個分布中選取一個單詞，然后將它反饋到RNN中最為一個輸入
給定首個單詞，RNN指定第二個單詞的分布
繼續(xù)進行，直到選完

在訓練期間，我們只需要輸入“正確”的單詞。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

編碼器和解碼器網(wǎng)絡是如何訓練的

給定一個句型組，使用反向傳播來最大化產(chǎn)生特定翻譯的對數(shù)可能性
目前這個系統(tǒng)只訓練過一組語言

該系統(tǒng)已實現(xiàn)在該數(shù)據(jù)上的最佳水準
該系統(tǒng)大約需要一年來開發(fā)

如果我們使用更多的數(shù)據(jù)，并且同時對多種語言共同進行訓練編碼器和解碼器的話，它的表現(xiàn)會好的多

歐洲的議會給出了25種方式，我們可以通過所有的25中解碼器進行反向傳播。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

結合視覺和語言（Vinyals等近期工作的簡單介紹）

在imagent上訓練的深度卷積網(wǎng)絡種最后一個隱層的活動向量是能編碼圖片中內容的“認知”
將認知規(guī)劃到深度卷積神經(jīng)網(wǎng)絡的初始隱層
訓練RNN來輸出它在圖片中看到了什么

使用一個擁有20萬張圖片（每張圖片有幾個注釋）的數(shù)據(jù)集
不再重復訓練卷積神經(jīng)網(wǎng)絡

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

一群人在一個戶外市場購物

（人們蜷縮圍繞著一家開放市場）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

一個抱著填充動物玩具的孩子特寫

（一個小女孩睡在沙發(fā)上，抱著一個玩具熊）

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

文本處理的意義

一旦我們能將一句話轉化成一個思想向量，那么一篇文本也能變成一系列的思想向量。
在接下里的幾年里，人們將使用深度RNNs來學習對思想向量序列進行建模。

這將捕獲自然推理過程
它應該能讓我們理解文本要表達的含義

我們可能需要數(shù)十億的神經(jīng)元以及百億級的參數(shù)才能實現(xiàn)人類的理解水平。

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

經(jīng)典AI的意義

對于物理學家來說光波必須通過以太來進行傳播

他們認為沒有其他的可能性

對于AI研究學者來說人們必須使用正式的推理規(guī)則來通過一個一個論點來傳播含義

他們認為沒有其他的可能性

神經(jīng)網(wǎng)絡內部的編碼器與解碼器沒有符號專門用來針對機器翻譯

唯一的符號是輸入和輸出

也許處理符號串不是通過操作內部符號串來實現(xiàn)的

處理像素陣列絕對不是通過操作內部像素來實現(xiàn)的

深度學習鼻祖Geoffrey Hinton幫你入門帶你飛

深度學習是從哪里來的？

所有的主要思想和幾乎全部的實踐成果都是來源于基于興趣的研究。（Gatsby基金十分重要）
目標在于鼓勵翻譯研究的政府資助也對發(fā)展深度學習科學技術有小部分貢獻

公司擅長于開發(fā)新的想法理念
長遠來看，好的想法理念卻是真正的瓶頸
因此給予大學基礎結構來發(fā)展真正的想法理念

PS : 本文由雷鋒網(wǎng)編譯，未經(jīng)許可拒絕轉載！

via Geoffrey Hinton

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

7人收藏

李尊

編輯

掃描關注作者微信

發(fā)私信

當月熱門文章