北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng)：用語音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

本文作者：我在思考中

2022-12-07 10:17

導(dǎo)語：一個(gè)由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。

一個(gè)由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。

作者 | 黃楠

編輯 | 陳彩嫻

2022 年 12 月 6 日，SIGGRAPH Asia 2022 大會(huì)官方公布了最佳論文等多個(gè)獎(jiǎng)項(xiàng)。其中，最佳論文獎(jiǎng)由北京大學(xué)劉利斌團(tuán)隊(duì)的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得，論文第一作者為北京大學(xué) 2020 級(jí)研究生敖騰隆。

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng)：用語音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

論文鏈接：https://arxiv.org/pdf/2210.01448.pdf

在日常生活中，我們的語言行為時(shí)常會(huì)伴隨著一些非語言的動(dòng)作進(jìn)行：在公開演講時(shí)使用手勢(shì)讓內(nèi)容更有感染力，一個(gè)突然降臨的好消息令人不由自主地鼓掌，陷入沉思時(shí)的來回走動(dòng)和緊握的拳頭......這些非語言的動(dòng)作像是“調(diào)味劑”，有時(shí)可以幫助形象化我們口頭所說的一件事物，強(qiáng)化語言所傳遞的態(tài)度，讓人類的表達(dá)才會(huì)更加生動(dòng)且高效。

在這項(xiàng)工作中，劉利斌團(tuán)隊(duì)提出了一個(gè)新的由語音和文字來驅(qū)動(dòng)3D上半身人體模型進(jìn)行手勢(shì)表演的跨模態(tài)生成系統(tǒng)，通過輸入一段時(shí)序同步的語音和文字，系統(tǒng)就能自動(dòng)生成與之對(duì)應(yīng)的上半身手勢(shì)。

圖 1：系統(tǒng)概覽圖

一段手勢(shì)動(dòng)作由單個(gè)手勢(shì)單元（gesture unit）組成，其中，每個(gè)手勢(shì)單元可根據(jù)語調(diào)點(diǎn)、例如強(qiáng)調(diào)重音等，被劃分為單個(gè)手勢(shì)階段（gesture phase），每個(gè)手勢(shì)階段就代表了一小段特定的動(dòng)作，比如抬手、擺臂等，在語言學(xué)中，這些手勢(shì)階段通常被稱為手勢(shì)詞（gesture lexeme）。由于日常交流中的手勢(shì)詞數(shù)目有限，將這些手勢(shì)詞進(jìn)行集合后，即可獲得一個(gè)手勢(shì)詞典（gesture lexicon）。

特定演講者在講述過程中使用的手勢(shì)詞，就是手勢(shì)詞典中的子集，每個(gè)手勢(shì)詞上還會(huì)疊加輕微的變動(dòng)（variation），研究人員通過假設(shè)此類表動(dòng)無法直接由輸入推斷，將其編碼為一些隱變量（latent variable），這些代表輕微變動(dòng)隱變量的手勢(shì)風(fēng)格編碼（gesture style code）。演講者風(fēng)格不同，因此手勢(shì)風(fēng)格編碼一般跟演講者的風(fēng)格相關(guān)，會(huì)受到演講者的音調(diào)等低層次音頻特征影響。

圖 2：系統(tǒng)所使用的字符模型

對(duì)此，該系統(tǒng)依據(jù)手勢(shì)相關(guān)的語言學(xué)研究理論，從韻律和語義兩個(gè)維度出發(fā)，對(duì)語音文字和手勢(shì)之間的關(guān)系進(jìn)行建模，從而保證生成的手勢(shì)動(dòng)作既韻律匹配又具備合理的語義。

基于上述理論，劉利斌團(tuán)隊(duì)梳理了一個(gè)層次化結(jié)構(gòu)：需要檢測(cè)節(jié)奏點(diǎn)（beat），劃分出手勢(shì)詞，每個(gè)手勢(shì)詞本質(zhì)上已具備明確含義，由輸入語音的高層次語義特征決定；而基于每個(gè)手勢(shì)詞的變動(dòng)，即手勢(shì)風(fēng)格編碼，應(yīng)該與輸入語音的低層次音頻特征，例如音調(diào)、音強(qiáng)等因素相關(guān)。

因此在系統(tǒng)中，研究人員首先需要分離出不同層次的音頻特征，由高層次音頻特征決定手勢(shì)詞，低層次音頻特征決定手勢(shì)風(fēng)格編碼。當(dāng)推斷出整段音頻對(duì)應(yīng)的手勢(shì)詞和手勢(shì)風(fēng)格編碼序列后，依照檢測(cè)出的節(jié)奏，研究團(tuán)隊(duì)會(huì)顯式地將上述手勢(shì)塊“拼接”起來，確保生成的手勢(shì)韻律和諧，同時(shí)明確的手勢(shì)詞和手勢(shì)風(fēng)格編碼保證了生成手勢(shì)的語義正確性。

圖 3：第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結(jié)果，右側(cè)圖表顯示編輯輸入（平線）和輸出運(yùn)動(dòng)的相應(yīng)值，箱形圖顯示輸出的統(tǒng)計(jì)數(shù)據(jù)

系統(tǒng)由數(shù)據(jù)（Data）模塊、訓(xùn)練（Training）模塊和推斷（Inference）模塊三個(gè)部分組成。

其中，數(shù)據(jù)模塊的任務(wù)是對(duì)語音進(jìn)行預(yù)處理，根據(jù)節(jié)拍將語音分割成標(biāo)準(zhǔn)化塊，并從這些塊中提取出語音特征。此次研究中共使用了三個(gè)數(shù)據(jù)集，分別是 Trinity 數(shù)據(jù)集、TED 數(shù)據(jù)集、以及為這項(xiàng)工作所收集的中文數(shù)據(jù)集。

訓(xùn)練模塊會(huì)從標(biāo)準(zhǔn)化運(yùn)動(dòng)塊中學(xué)習(xí)手勢(shì)詞匯，并訓(xùn)練生成器合成手勢(shì)序列，當(dāng)中要考慮的條件就包括了手勢(shì)詞典、風(fēng)格代碼以及先前運(yùn)動(dòng)塊和相鄰語音塊的特征。隨后的推理模塊中，會(huì)使用解釋器將語音特征轉(zhuǎn)換為手勢(shì)詞典和風(fēng)格代碼，并使用學(xué)習(xí)生成器來預(yù)測(cè)未來的手勢(shì)。

圖 4：借助系統(tǒng)從 Trinity Gesture 數(shù)據(jù)集的四個(gè)樣本語音摘錄中合成的手勢(shì)的定性結(jié)果，在說“好”時(shí)會(huì)做出一個(gè)隱喻的手勢(shì)，當(dāng)在捍衛(wèi)時(shí)會(huì)做出一個(gè)標(biāo)志性的手勢(shì)，遇到 thing 和 selling 等詞會(huì)做出節(jié)拍手勢(shì)，當(dāng)說到“我”時(shí)會(huì)出現(xiàn)指示手勢(shì)

為了驗(yàn)證該研究是否可以實(shí)現(xiàn)“高層次音頻特征決定偏語義的手勢(shì)詞，低層次音頻特征則影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”，劉利斌團(tuán)隊(duì)通過找到一類相似語義的高層次音頻特征，其對(duì)應(yīng)的文本為 many、quite a few、lots of、much、and more 等，就這類高層次音頻特征的每個(gè)音頻特征對(duì)應(yīng)生成的手勢(shì)序列，并對(duì)這些手勢(shì)序列編碼到手勢(shì)詞典空間進(jìn)行可視化（圖 4）。

圖 5：手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果

可以發(fā)現(xiàn)，手勢(shì)動(dòng)作序列僅出現(xiàn)在特定的手勢(shì)詞內(nèi)，當(dāng)中所出現(xiàn)的手勢(shì)詞對(duì)應(yīng)的動(dòng)作，圖 5（a）中的紅、橙和紫色所對(duì)應(yīng)的骨骼動(dòng)作），的確為“many、lots of、 etc”的意思表征。與之相對(duì)應(yīng)的是，當(dāng)對(duì)同類的低層次音頻特征進(jìn)行可視化后，如圖 5（b）可見，屬于該低層次音頻特征類的動(dòng)作序列不再集中于特定幾類，而分散到整個(gè)手勢(shì)詞典空間內(nèi)，由此可以驗(yàn)證“高層次音頻特征決定偏語義的手勢(shì)詞”。

圖 6：手勢(shì)詞典空間動(dòng)作特征向量的 t-SNE 可視化結(jié)果

當(dāng)不加入手勢(shì)風(fēng)格編碼 z 時(shí)，如圖 6（a）所示，所生成的手勢(shì)密集地集中在當(dāng)前手勢(shì)詞的類中心，于真值分布存在較大差距。當(dāng)加入手勢(shì)風(fēng)格編碼后，如圖 6（c）所示，所生成的手勢(shì)跟真值分布接近，這說明手勢(shì)風(fēng)格編碼已成功建模了手勢(shì)詞的類內(nèi)輕微變動(dòng)。由此可以看到，手勢(shì)風(fēng)格編碼主要由低層次音頻特征推斷得到，從而證明“低層次音頻特征影響當(dāng)前手勢(shì)詞內(nèi)的輕微變動(dòng)”。

除了上述結(jié)果外，該系統(tǒng)還具備以下幾項(xiàng)特性：

跨語言生成，即使面對(duì)數(shù)據(jù)集沒有的語言，也能生成韻律和諧的手勢(shì)；長(zhǎng)音頻生成，能夠面對(duì)較長(zhǎng)的輸入音頻序列

手勢(shì)風(fēng)格編輯，通過加入控制信號(hào)可以控制生成手勢(shì)的風(fēng)格

無聲狀態(tài)下盡量減少多余的手勢(shì)動(dòng)作

輸入一些特定音樂可魯棒地捕捉其節(jié)奏并隨之“擺動(dòng)”

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng)：用語音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)

劉利斌，北京大學(xué)人工智能研究院前沿計(jì)算研究中心助理教授，2009年本科畢業(yè)于清華大學(xué)數(shù)理基礎(chǔ)科學(xué)專業(yè)，后轉(zhuǎn)向計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，2014年獲得清華大學(xué)博士學(xué)位，曾在加拿大不列顛哥倫比亞大學(xué)及美國(guó)迪士尼研究院進(jìn)行博士后研究，之后加入 DeepMotion Inc. 任首席科學(xué)家。劉利斌教授的主要研究方向是計(jì)算機(jī)圖形學(xué)、物理仿真、運(yùn)動(dòng)控制以及相關(guān)的優(yōu)化控制、機(jī)器學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等領(lǐng)域，曾多次擔(dān)任圖形學(xué)主要國(guó)際會(huì)議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。

參考鏈接：

1.https://sa2022.siggraph.org/en/

2.https://github.com/Aubrey-ao/HumanBehaviorAnimation

更多內(nèi)容，點(diǎn)擊下方關(guān)注：

北大劉利斌團(tuán)隊(duì)斬獲 SIGGRAPH Asia 2022 最佳論文獎(jiǎng)：用語音和文字驅(qū)動(dòng)數(shù)字人打手勢(shì)