7
| 本文作者: 科學(xué)的fan | 2014-12-02 10:24 |

致力于為用戶自動生成可讀性文本的敘述科學(xué)公司(Narrative Science),12月1日宣布已完成1000萬美元D輪融資。至此,該公司6輪募資總額已增至3240萬美元。
說到NS,有必要提及Automated Insights公司,兩家公司在做同一件事:重塑文字內(nèi)容的生產(chǎn)模式。一家是預(yù)言機器人記者可能在5年內(nèi)贏得普利策新聞獎,一家是計劃今年利用機器人寫作生產(chǎn)出10億篇文章。加之以前出現(xiàn)的電腦寫小說、識圖題詩等話題,文字內(nèi)容生產(chǎn)的“自動化”模式是否已經(jīng)到來?
機器“自助”創(chuàng)作如何可能?
想象一下,只要提供零碎的部分信息,然后摁下一個按鈕,就能在3分鐘內(nèi)完成一篇新聞報道。
實際上,諸如Automated Insights的Wordsmith平臺和Narrative Science的自動撰寫新聞系統(tǒng),完成創(chuàng)作的流程大致接近:借助系統(tǒng)各種內(nèi)設(shè)語言建立起的業(yè)務(wù)算法,分析出提供給系統(tǒng)的數(shù)據(jù)的特點和內(nèi)容,通過計算機程序?qū)?shù)據(jù)融入預(yù)設(shè)的結(jié)構(gòu)化語言(或稱為模板)中,生成敘述性的長短文章、報表、可視化圖形等。基于信息數(shù)據(jù)本身及模板數(shù)據(jù),算法會決定每篇報道的選題、語氣、語調(diào)和寫作形式。
從這個角度來說,“自動化寫作”的說法可能有些嘩眾取寵。這是一種相對規(guī)律性和重復(fù)性的工作,而這些基本動作,結(jié)合目前的數(shù)學(xué)算法能力和大數(shù)據(jù)在統(tǒng)計學(xué)方面的應(yīng)用,是完全可以形成自動化,或者至少是半自動化的,也就是本文所強調(diào)的機器創(chuàng)作的“自助”模式:機器基于內(nèi)設(shè)算法而針對特定數(shù)據(jù)進行標(biāo)準(zhǔn)分析的前期基礎(chǔ)篩選和整理。
以機器自助創(chuàng)作滲透較深的體育報道為例,因為體育涉及大量波動性很強的數(shù)據(jù),技術(shù)工程師在系統(tǒng)內(nèi)嵌每種賽事或活動的算法模式和預(yù)測規(guī)則,實現(xiàn)對相應(yīng)數(shù)據(jù)的識別,如比賽結(jié)果是哪個球隊勝出?是驚險取勝還是大比分屠殺?是否有VIP級別的球員表現(xiàn)?或根據(jù)比賽已知數(shù)據(jù)和其他數(shù)據(jù)庫進行推測:是否某一次進攻(防守)有定勝負(fù)的作用?此基礎(chǔ)上,參照相應(yīng)的文章模板,如某知名人物的或流行的寫作用詞習(xí)慣,進而完成創(chuàng)作。
機器“自助”創(chuàng)作將帶來什么?
如若某日自動化寫作果真成型,必然會是一場涉及到文字作為人類信息載體和傳遞媒介的根本變革。而機器“自助”創(chuàng)作基于大數(shù)據(jù)收集、整理、分析,進而挖掘數(shù)據(jù)背后的關(guān)聯(lián)和意義,并采用商業(yè)化的書面語言撰寫新聞,確實會對傳統(tǒng)的內(nèi)容生產(chǎn)模式產(chǎn)生深刻的影響。
顛覆與解放并存,機器“自助”創(chuàng)作面前,傳統(tǒng)內(nèi)容生產(chǎn)方面幾家歡喜幾家愁?
我們回避不了這樣一個事實:我們的日常生活活動,正越來越多被轉(zhuǎn)化為海量數(shù)據(jù),移動互聯(lián)網(wǎng)帶來的用戶數(shù)據(jù)膨脹、體育競技的精細(xì)化催生的數(shù)據(jù)收集系統(tǒng)擴張,不少情況下,新聞報道的取材就來自于這些數(shù)據(jù)當(dāng)中,如體育比賽場地增加的高分辨率攝像頭和高強度傳感器,目的是分析每場比賽中各位球員的表現(xiàn)情況,而這些內(nèi)容的生產(chǎn)對僅依靠肉體之軀的記者是難以滿足需要。互聯(lián)網(wǎng)所產(chǎn)生數(shù)據(jù)的規(guī)??芍^前所未有,Narrative Science能夠?qū)⑦@些數(shù)據(jù)轉(zhuǎn)化成文章。這就是Narrative Science必須存在的理由。
從另一角度講,計算機算法必須同實際的內(nèi)容生產(chǎn)者協(xié)手合作、發(fā)揮出各自的優(yōu)勢,才能成行。
計算機的優(yōu)勢在于記憶無差錯,并能夠快速訪問和“計算”各類數(shù)據(jù),但機器卻無法思考,只能在特定的數(shù)據(jù)中根據(jù)設(shè)定的模式完成數(shù)據(jù)整理工作,對數(shù)據(jù)的挖掘、新聞價值的發(fā)現(xiàn),仍需專業(yè)的實際內(nèi)容生產(chǎn)者去完成。只有更深入地加強計算機在機器學(xué)習(xí)、數(shù)據(jù)處理等表現(xiàn),進而更為準(zhǔn)確理解人類語言和文字,計算機的“敘事”技巧才能更多地被采用。
而實際的內(nèi)容生產(chǎn)者在生產(chǎn)內(nèi)容過程中,如何從數(shù)據(jù)中揭示出有價值的信息,發(fā)現(xiàn)數(shù)據(jù)中潛在的價值,既需要投入更多的心思對機器進行“培訓(xùn)”,以實現(xiàn)從繁重中解放出來;更需要調(diào)動多方面的知識和能力,做深入的報告和專題分析。
機器無法撰寫具有創(chuàng)新性的新聞,其新聞報道只能根據(jù)現(xiàn)成的模式進行再造。這種現(xiàn)成的模式是根據(jù)傳統(tǒng)新聞記者的報道風(fēng)格和特定題材新聞報道的模式生成的,離開這一點,機器就失去了再造的參照物。因此,無論數(shù)據(jù)背后的意義挖掘還是數(shù)據(jù)新聞報道的模式和風(fēng)格,都離不開傳統(tǒng)內(nèi)容生產(chǎn)的專業(yè)積淀和報道方式創(chuàng)新,所謂“自動化寫作”只是一種被抽象化夸大的預(yù)言,但在機器“自助”創(chuàng)作面前,傳統(tǒng)的內(nèi)容生產(chǎn)者在面對巨量信息分析整理和意義挖掘中,確實面臨著所需知識結(jié)構(gòu)和報道水平的全方位提升的考驗。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。