0
| 本文作者: 我在思考中 | 2022-12-07 10:17 |
作者 | 黃楠
編輯 | 陳彩嫻
2022 年 12 月 6 日,SIGGRAPH Asia 2022 大會(huì)官方公布了最佳論文等多個(gè)獎(jiǎng)項(xiàng)。其中,最佳論文獎(jiǎng)由北京大學(xué)劉利斌團(tuán)隊(duì)的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得,論文第一作者為北京大學(xué) 2020 級(jí)研究生敖騰隆。

在日常生活中,我們的語言行為時(shí)常會(huì)伴隨著一些非語言的動(dòng)作進(jìn)行:在公開演講時(shí)使用手勢(shì)讓內(nèi)容更有感染力,一個(gè)突然降臨的好消息令人不由自主地鼓掌,陷入沉思時(shí)的來回走動(dòng)和緊握的拳頭......這些非語言的動(dòng)作像是“調(diào)味劑”,有時(shí)可以幫助形象化我們口頭所說的一件事物,強(qiáng)化語言所傳遞的態(tài)度,讓人類的表達(dá)才會(huì)更加生動(dòng)且高效。
在這項(xiàng)工作中,劉利斌團(tuán)隊(duì)提出了一個(gè)新的由語音和文字來驅(qū)動(dòng)3D上半身人體模型進(jìn)行手勢(shì)表演的跨模態(tài)生成系統(tǒng),通過輸入一段時(shí)序同步的語音和文字,系統(tǒng)就能自動(dòng)生成與之對(duì)應(yīng)的上半身手勢(shì)。

圖 1:系統(tǒng)概覽圖
一段手勢(shì)動(dòng)作由單個(gè)手勢(shì)單元(gesture unit)組成,其中,每個(gè)手勢(shì)單元可根據(jù)語調(diào)點(diǎn)、例如強(qiáng)調(diào)重音等,被劃分為單個(gè)手勢(shì)階段(gesture phase),每個(gè)手勢(shì)階段就代表了一小段特定的動(dòng)作,比如抬手、擺臂等,在語言學(xué)中,這些手勢(shì)階段通常被稱為手勢(shì)詞(gesture lexeme)。由于日常交流中的手勢(shì)詞數(shù)目有限,將這些手勢(shì)詞進(jìn)行集合后,即可獲得一個(gè)手勢(shì)詞典(gesture lexicon)。
特定演講者在講述過程中使用的手勢(shì)詞,就是手勢(shì)詞典中的子集,每個(gè)手勢(shì)詞上還會(huì)疊加輕微的變動(dòng)(variation),研究人員通過假設(shè)此類表動(dòng)無法直接由輸入推斷,將其編碼為一些隱變量(latent variable),這些代表輕微變動(dòng)隱變量的手勢(shì)風(fēng)格編碼(gesture style code)。演講者風(fēng)格不同,因此手勢(shì)風(fēng)格編碼一般跟演講者的風(fēng)格相關(guān),會(huì)受到演講者的音調(diào)等低層次音頻特征影響。

圖 2:系統(tǒng)所使用的字符模型
對(duì)此,該系統(tǒng)依據(jù)手勢(shì)相關(guān)的語言學(xué)研究理論,從韻律和語義兩個(gè)維度出發(fā),對(duì)語音文字和手勢(shì)之間的關(guān)系進(jìn)行建模,從而保證生成的手勢(shì)動(dòng)作既韻律匹配又具備合理的語義。
基于上述理論,劉利斌團(tuán)隊(duì)梳理了一個(gè)層次化結(jié)構(gòu):需要檢測(cè)節(jié)奏點(diǎn)(beat),劃分出手勢(shì)詞,每個(gè)手勢(shì)詞本質(zhì)上已具備明確含義,由輸入語音的高層次語義特征決定;而基于每個(gè)手勢(shì)詞的變動(dòng),即手勢(shì)風(fēng)格編碼,應(yīng)該與輸入語音的低層次音頻特征,例如音調(diào)、音強(qiáng)等因素相關(guān)。
因此在系統(tǒng)中,研究人員首先需要分離出不同層次的音頻特征,由高層次音頻特征決定手勢(shì)詞,低層次音頻特征決定手勢(shì)風(fēng)格編碼。當(dāng)推斷出整段音頻對(duì)應(yīng)的手勢(shì)詞和手勢(shì)風(fēng)格編碼序列后,依照檢測(cè)出的節(jié)奏,研究團(tuán)隊(duì)會(huì)顯式地將上述手勢(shì)塊“拼接”起來,確保生成的手勢(shì)韻律和諧,同時(shí)明確的手勢(shì)詞和手勢(shì)風(fēng)格編碼保證了生成手勢(shì)的語義正確性。

圖 3:第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結(jié)果,右側(cè)圖表顯示編輯輸入(平線)和輸出運(yùn)動(dòng)的相應(yīng)值,箱形圖顯示輸出的統(tǒng)計(jì)數(shù)據(jù)
系統(tǒng)由數(shù)據(jù)(Data)模塊、訓(xùn)練(Training)模塊和推斷(Inference)模塊三個(gè)部分組成。
其中, 數(shù)據(jù)模塊的任務(wù)是對(duì)語音進(jìn)行預(yù)處理,根據(jù)節(jié)拍將語音分割成標(biāo)準(zhǔn)化塊,并從這些塊中提取出語音特征。此次研究中共使用了三個(gè)數(shù)據(jù)集,分別是 Trinity 數(shù)據(jù)集、TED 數(shù)據(jù)集、以及為這項(xiàng)工作所收集的中文數(shù)據(jù)集。
訓(xùn)練模塊會(huì)從標(biāo)準(zhǔn)化運(yùn)動(dòng)塊中學(xué)習(xí)手勢(shì)詞匯,并訓(xùn)練生成器合成手勢(shì)序列,當(dāng)中要考慮的條件就包括了手勢(shì)詞典、風(fēng)格代碼以及先前運(yùn)動(dòng)塊和相鄰語音塊的特征。隨后的推理模塊中,會(huì)使用解釋器將語音特征轉(zhuǎn)換為手勢(shì)詞典和風(fēng)格代碼,并使用學(xué)習(xí)生成器來預(yù)測(cè)未來的手勢(shì)。

圖 4:借助系統(tǒng)從 Trinity Gesture 數(shù)據(jù)集的四個(gè)樣本語音摘錄中合成的手勢(shì)的定性結(jié)果,在說“好”時(shí)會(huì)做出一個(gè)隱喻的手勢(shì),當(dāng)在捍衛(wèi)時(shí)會(huì)做出一個(gè)標(biāo)志性的手勢(shì),遇到 thing 和 selling 等詞會(huì)做出節(jié)拍手勢(shì),當(dāng)說到“我”時(shí)會(huì)出現(xiàn)指示手勢(shì)
為了驗(yàn)證該研究是否可以實(shí)現(xiàn)“高層次音頻特征決定偏語義的手勢(shì)詞,低層次音頻特征則影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”,劉利斌團(tuán)隊(duì)通過找到一類相似語義的高層次音頻特征,其對(duì)應(yīng)的文本為 many、quite a few、lots of、much、and more 等,就這類高層次音頻特征的每個(gè)音頻特征對(duì)應(yīng)生成的手勢(shì)序列,并對(duì)這些手勢(shì)序列編碼到手勢(shì)詞典空間進(jìn)行可視化(圖 4)。

圖 5:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果
可以發(fā)現(xiàn),手勢(shì)動(dòng)作序列僅出現(xiàn)在特定的手勢(shì)詞內(nèi),當(dāng)中所出現(xiàn)的手勢(shì)詞對(duì)應(yīng)的動(dòng)作,圖 5(a)中的紅、橙和紫色所對(duì)應(yīng)的骨骼動(dòng)作),的確為“many、lots of、 etc”的意思表征。與之相對(duì)應(yīng)的是,當(dāng)對(duì)同類的低層次音頻特征進(jìn)行可視化后,如圖 5(b)可見,屬于該低層次音頻特征類的動(dòng)作序列不再集中于特定幾類,而分散到整個(gè)手勢(shì)詞典空間內(nèi),由此可以驗(yàn)證“高層次音頻特征決定偏語義的手勢(shì)詞”。

圖 6:手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果
當(dāng)不加入手勢(shì)風(fēng)格編碼 z 時(shí),如圖 6(a)所示,所生成的手勢(shì)密集地集中在當(dāng)前手勢(shì)詞的類中心,于真值分布存在較大差距。當(dāng)加入手勢(shì)風(fēng)格編碼后,如圖 6(c)所示,所生成的手勢(shì)跟真值分布接近,這說明手勢(shì)風(fēng)格編碼已成功建模了手勢(shì)詞的類內(nèi)輕微變動(dòng)。由此可以看到,手勢(shì)風(fēng)格編碼主要由低層次音頻特征推斷得到,從而證明“低層次音頻特征影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”。
除了上述結(jié)果外,該系統(tǒng)還具備以下幾項(xiàng)特性:
跨語言生成,即使面對(duì)數(shù)據(jù)集沒有的語言,也能生成韻律和諧的手勢(shì);長(zhǎng)音頻生成,能夠面對(duì)較長(zhǎng)的輸入音頻序列
手勢(shì)風(fēng)格編輯,通過加入控制信號(hào)可以控制生成手勢(shì)的風(fēng)格
無聲狀態(tài)下盡量減少多余的手勢(shì)動(dòng)作
輸入一些特定音樂可魯棒地捕捉其節(jié)奏并隨之“擺動(dòng)”

劉利斌,北京大學(xué)人工智能研究院前沿計(jì)算研究中心助理教授,2009年本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)專業(yè),后轉(zhuǎn)向計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),2014年獲得清華大學(xué)博士學(xué)位,曾在加拿大不列顛哥倫比亞大學(xué)及美國(guó)迪士尼研究院進(jìn)行博士后研究,之后加入 DeepMotion Inc. 任首席科學(xué)家。劉利斌教授的主要研究方向是計(jì)算機(jī)圖形學(xué)、物理仿真、運(yùn)動(dòng)控制以及相關(guān)的優(yōu)化控制、機(jī)器學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等領(lǐng)域,曾多次擔(dān)任圖形學(xué)主要國(guó)際會(huì)議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。
2.https://github.com/Aubrey-ao/HumanBehaviorAnimation
更多內(nèi)容,點(diǎn)擊下方關(guān)注:

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。