谷歌公布圖像字幕技術(shù)——人工智能的妙用

本文作者： Maximum

2014-11-20 21:37

導(dǎo)語：近日，有消息稱，谷歌已經(jīng)公布了一個新的圖像字幕系統(tǒng)，它可以智能識別照片上的內(nèi)容，并自動對它用自然語言進(jìn)行描述并標(biāo)記。

近日，有消息稱，谷歌已經(jīng)公布了一個新的圖像字幕系統(tǒng)，它可以智能識別照片上的內(nèi)容，并自動對它用自然語言進(jìn)行描述并標(biāo)記。雖然之前已經(jīng)有智能系統(tǒng)可以自動標(biāo)記圖像，識別出其中的某個物體，但谷歌的這項技術(shù)可以描述得更全面，比如它的描述可能是“兩只狗在草地上玩”或“帶粉紅色帽子的小女孩在吹泡泡”等。這可以說是人工智能/人工學(xué)習(xí)領(lǐng)域的一次重大突破，因為該軟件系統(tǒng)是谷歌使用大規(guī)模模擬神經(jīng)元處理數(shù)據(jù)的最新研究成果。沒有人對識別場景的規(guī)則進(jìn)行編程，這一神經(jīng)網(wǎng)絡(luò)是自己“學(xué)”會處理數(shù)據(jù)的?？磥砣斯ぶ悄芤膊⒉豢偸亲屓藫?dān)心會毀滅人類，或許還能在晚上捧著兒童繪本給小孩子們講講睡前故事什么的，是不是也挺讓人暖心的呢？

傳統(tǒng)圖像識別的困境

現(xiàn)在我們已經(jīng)應(yīng)用的成熟圖像識別技術(shù)采用的是“模板匹配”的算法，按照信息的獲取——預(yù)處理——特征抽取和選擇——分類器設(shè)計——分類決策這樣的順序進(jìn)行識別。聽起來似乎還不錯，識別的準(zhǔn)確性也確實很高，不少掃描儀就是采用這樣的算法來識別文字的。但這種模型強(qiáng)調(diào)圖像必須與模板完全符合才能加以識別，而事實上人不僅能識別與腦中的模板完全一致的圖像，也能識別與模板不完全一致的圖像。例如,人們不僅能識別某一個具體的字母A,也能識別印刷體的、手寫體的、方向不正的、大小不同的各種字母A。同時,人要識別的圖像是大量的，如果要求所識別的每一個圖像在腦中都有一個相應(yīng)的模板，那也是不可能的。這是模板識別天生的阿格硫斯之踵，也是很多辭書類APPs可以通過攝像頭直接識別書本上的文字并翻譯，但卻對你的手寫體視若無睹的原因。

筆者的老師中就有從事交通標(biāo)志識別研究的，主要工作就是在數(shù)量巨大的圖片中找到交通標(biāo)志，并對其加以識別。聽起來和目前已經(jīng)頗為成熟的車牌號碼識別技術(shù)沒有什么區(qū)別，但在實際操作中卻表現(xiàn)得異常困難。同一地點不同時間的圖片往往不能夠完美地識別出相同的結(jié)果，圖像上來自各方的干擾往往也難以準(zhǔn)確地排除。這些問題都是由模板識別造成的。雖然目前已經(jīng)有較為先進(jìn)的汽車開始裝配交通標(biāo)志識別系統(tǒng)，但圖像識別在其中的作用并不大，汽車所以能夠識別交通標(biāo)志，主要是依賴交通部門和汽車公司的數(shù)據(jù)與離線地圖提供商的地理信息系統(tǒng)進(jìn)行匹配而取得的，圖像識別只是一個有益的補(bǔ)充而已。

圖像識別在中國

說到中國市場上的圖像識別/處理公司，微軟與漢王絕對是不能不提的。除了雙方都做得不錯的漢字手寫識別（目前，漢字的手寫識別依然是基于模板識別算法的，不過加入了更加高級的模糊模式——相似性識別技術(shù)）外，漢王的生物識別技術(shù)與微軟的大數(shù)據(jù)處理技術(shù)都在社會生產(chǎn)生活中得到了充分的應(yīng)用。漢王推出的各類指紋、面部識別打卡機(jī)真是“引無數(shù)白領(lǐng)盡折腰”啊！微軟在上海的大數(shù)據(jù)處理中心也是中國實用性最強(qiáng)的農(nóng)業(yè)大數(shù)據(jù)處理中心之一，不少農(nóng)業(yè)研究所都會將自家的數(shù)據(jù)交給他們處理。

我曾經(jīng)有幸參觀過一所農(nóng)業(yè)大數(shù)據(jù)研究所，他們在實驗地區(qū)布置了大量的攝像頭以檢測麥田的生長狀況，沒有安裝攝像頭的農(nóng)戶也可以通過智能手機(jī)將麥田的圖像上傳到云端。這些圖像會由研究所的專家進(jìn)行分析后再將結(jié)果反饋給農(nóng)戶。僅僅幾百個攝像頭，幾十部智能手機(jī)就代替了過去需要數(shù)十名農(nóng)技人員親自下田勘察才能得來的數(shù)據(jù)與報告。而最終這些圖像、數(shù)據(jù)會被發(fā)送至位于上海的微軟大數(shù)據(jù)處理中心進(jìn)行綜合處理，計算機(jī)會根據(jù)圖像、數(shù)據(jù)做出判斷，精確地測算出這一年的產(chǎn)量或者遭遇病蟲害的風(fēng)險。這些技術(shù)的應(yīng)用理應(yīng)使人感動，它們真真切切地證明了科技使生活更美好。

谷歌與圖像識別

此次的圖像字幕技術(shù)讓谷歌在圖像識別領(lǐng)域又進(jìn)了一步。早在谷歌還沒有撤出中國市場的時候，谷歌就曾推出過圖像搜索引擎。雖然準(zhǔn)確率總不能讓人滿意，且還會搜索出一些完全沒有聯(lián)系的圖片，但在當(dāng)時的確不失為一個創(chuàng)舉。盡管不少網(wǎng)友都曾調(diào)侃“敢不敢把自己的照片谷歌一下”，但就我進(jìn)行的幾次實驗而言，谷歌圖片搜索還是有一定準(zhǔn)確度的，它曾經(jīng)成功地通過我拍攝的黃浦江的照片搜索出了許多上海的夜景照片。

如果此次的消息屬實，谷歌的圖像字幕技術(shù)已經(jīng)擁有了近乎人類的識別能力的話，那么該技術(shù)將會把整個圖像識別技術(shù)領(lǐng)域推向更高的層次。我們可以想象，在未來，這項技術(shù)也許可以被用在盲人導(dǎo)盲或者閱讀上，這是一個非常了不起的成就。而且由于這項技術(shù)所具有的“可能性”——沒人對識別場景的規(guī)則進(jìn)行編程，這一神經(jīng)網(wǎng)絡(luò)是自己“學(xué)”會處理數(shù)據(jù)的——我們有理由相信其還可以發(fā)揮更多更加奇妙的作用。

真正的人工智能時代，來了！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

Maximum

專欄作者

歡迎大家評論，有空我會回復(fù)的。

發(fā)私信

當(dāng)月熱門文章