機器自助創(chuàng)作下的新媒體時代，科技與人文如何共存

本文作者：科學(xué)的fan

2014-12-02 10:24

導(dǎo)語：想象一下，只要提供零碎的部分信息，然后摁下一個按鈕，就能在3分鐘內(nèi)完成一篇新聞報道。

致力于為用戶自動生成可讀性文本的敘述科學(xué)公司（Narrative Science），12月1日宣布已完成1000萬美元D輪融資。至此，該公司6輪募資總額已增至3240萬美元。

說到NS，有必要提及Automated Insights公司，兩家公司在做同一件事：重塑文字內(nèi)容的生產(chǎn)模式。一家是預(yù)言機器人記者可能在5年內(nèi)贏得普利策新聞獎，一家是計劃今年利用機器人寫作生產(chǎn)出10億篇文章。加之以前出現(xiàn)的電腦寫小說、識圖題詩等話題，文字內(nèi)容生產(chǎn)的“自動化”模式是否已經(jīng)到來？

機器“自助”創(chuàng)作如何可能？

想象一下，只要提供零碎的部分信息，然后摁下一個按鈕，就能在3分鐘內(nèi)完成一篇新聞報道。

實際上，諸如Automated Insights的Wordsmith平臺和Narrative Science的自動撰寫新聞系統(tǒng)，完成創(chuàng)作的流程大致接近：借助系統(tǒng)各種內(nèi)設(shè)語言建立起的業(yè)務(wù)算法，分析出提供給系統(tǒng)的數(shù)據(jù)的特點和內(nèi)容，通過計算機程序?qū)?shù)據(jù)融入預(yù)設(shè)的結(jié)構(gòu)化語言（或稱為模板）中，生成敘述性的長短文章、報表、可視化圖形等。基于信息數(shù)據(jù)本身及模板數(shù)據(jù)，算法會決定每篇報道的選題、語氣、語調(diào)和寫作形式。

從這個角度來說，“自動化寫作”的說法可能有些嘩眾取寵。這是一種相對規(guī)律性和重復(fù)性的工作，而這些基本動作，結(jié)合目前的數(shù)學(xué)算法能力和大數(shù)據(jù)在統(tǒng)計學(xué)方面的應(yīng)用，是完全可以形成自動化，或者至少是半自動化的，也就是本文所強調(diào)的機器創(chuàng)作的“自助”模式：機器基于內(nèi)設(shè)算法而針對特定數(shù)據(jù)進行標(biāo)準(zhǔn)分析的前期基礎(chǔ)篩選和整理。

以機器自助創(chuàng)作滲透較深的體育報道為例，因為體育涉及大量波動性很強的數(shù)據(jù)，技術(shù)工程師在系統(tǒng)內(nèi)嵌每種賽事或活動的算法模式和預(yù)測規(guī)則，實現(xiàn)對相應(yīng)數(shù)據(jù)的識別，如比賽結(jié)果是哪個球隊勝出？是驚險取勝還是大比分屠殺？是否有VIP級別的球員表現(xiàn)？或根據(jù)比賽已知數(shù)據(jù)和其他數(shù)據(jù)庫進行推測：是否某一次進攻（防守）有定勝負(fù)的作用？此基礎(chǔ)上，參照相應(yīng)的文章模板，如某知名人物的或流行的寫作用詞習(xí)慣，進而完成創(chuàng)作。

機器“自助”創(chuàng)作將帶來什么？

如若某日自動化寫作果真成型，必然會是一場涉及到文字作為人類信息載體和傳遞媒介的根本變革。而機器“自助”創(chuàng)作基于大數(shù)據(jù)收集、整理、分析，進而挖掘數(shù)據(jù)背后的關(guān)聯(lián)和意義，并采用商業(yè)化的書面語言撰寫新聞，確實會對傳統(tǒng)的內(nèi)容生產(chǎn)模式產(chǎn)生深刻的影響。

顛覆與解放并存，機器“自助”創(chuàng)作面前，傳統(tǒng)內(nèi)容生產(chǎn)方面幾家歡喜幾家愁？

我們回避不了這樣一個事實：我們的日常生活活動，正越來越多被轉(zhuǎn)化為海量數(shù)據(jù)，移動互聯(lián)網(wǎng)帶來的用戶數(shù)據(jù)膨脹、體育競技的精細(xì)化催生的數(shù)據(jù)收集系統(tǒng)擴張，不少情況下，新聞報道的取材就來自于這些數(shù)據(jù)當(dāng)中，如體育比賽場地增加的高分辨率攝像頭和高強度傳感器，目的是分析每場比賽中各位球員的表現(xiàn)情況，而這些內(nèi)容的生產(chǎn)對僅依靠肉體之軀的記者是難以滿足需要。互聯(lián)網(wǎng)所產(chǎn)生數(shù)據(jù)的規(guī)?？芍^前所未有，Narrative Science能夠?qū)⑦@些數(shù)據(jù)轉(zhuǎn)化成文章。這就是Narrative Science必須存在的理由。

從另一角度講，計算機算法必須同實際的內(nèi)容生產(chǎn)者協(xié)手合作、發(fā)揮出各自的優(yōu)勢，才能成行。

計算機的優(yōu)勢在于記憶無差錯，并能夠快速訪問和“計算”各類數(shù)據(jù)，但機器卻無法思考，只能在特定的數(shù)據(jù)中根據(jù)設(shè)定的模式完成數(shù)據(jù)整理工作，對數(shù)據(jù)的挖掘、新聞價值的發(fā)現(xiàn)，仍需專業(yè)的實際內(nèi)容生產(chǎn)者去完成。只有更深入地加強計算機在機器學(xué)習(xí)、數(shù)據(jù)處理等表現(xiàn)，進而更為準(zhǔn)確理解人類語言和文字，計算機的“敘事”技巧才能更多地被采用。

而實際的內(nèi)容生產(chǎn)者在生產(chǎn)內(nèi)容過程中，如何從數(shù)據(jù)中揭示出有價值的信息，發(fā)現(xiàn)數(shù)據(jù)中潛在的價值，既需要投入更多的心思對機器進行“培訓(xùn)”，以實現(xiàn)從繁重中解放出來；更需要調(diào)動多方面的知識和能力，做深入的報告和專題分析。

機器無法撰寫具有創(chuàng)新性的新聞，其新聞報道只能根據(jù)現(xiàn)成的模式進行再造。這種現(xiàn)成的模式是根據(jù)傳統(tǒng)新聞記者的報道風(fēng)格和特定題材新聞報道的模式生成的，離開這一點，機器就失去了再造的參照物。因此，無論數(shù)據(jù)背后的意義挖掘還是數(shù)據(jù)新聞報道的模式和風(fēng)格，都離不開傳統(tǒng)內(nèi)容生產(chǎn)的專業(yè)積淀和報道方式創(chuàng)新，所謂“自動化寫作”只是一種被抽象化夸大的預(yù)言，但在機器“自助”創(chuàng)作面前，傳統(tǒng)的內(nèi)容生產(chǎn)者在面對巨量信息分析整理和意義挖掘中，確實面臨著所需知識結(jié)構(gòu)和報道水平的全方位提升的考驗。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

科學(xué)的fan

專欄作者

公眾號：kexuedefan，關(guān)注TMT的自由撰稿人，力求客觀深入，愿做一枚死磕自己的人

發(fā)私信

當(dāng)月熱門文章

機器自助創(chuàng)作下的新媒體時代，科技與人文如何共存

機器自助創(chuàng)作下的新媒體時代，科技與人文如何共存