合成人類聲音，語(yǔ)音不再是人類的專利！

2017-07-03 by:CAE仿真在線來(lái)源:互聯(lián)網(wǎng)

來(lái)源:光明日?qǐng)?bào),原文由《環(huán)球科學(xué)》雜志社供稿

原題:合成人類聲音

撰文:尼古拉·歐斌(Nicolas Obin)阿克塞爾·羅貝爾(Axel Roebel)

翻譯:徐寒易

合成人類聲音，語(yǔ)音不再是人類的專利！Actran技術(shù)圖片1

(圖片來(lái)源:視覺(jué)中國(guó))

亞里士多德曾說(shuō),聲音是靈魂的鏡子。聲音是人類最獨(dú)特的表達(dá)方式,它是我們身份的一部分。語(yǔ)調(diào)的抑揚(yáng)頓挫可以流露出一個(gè)人的個(gè)性和情緒。

曾經(jīng)只有人類才能說(shuō)話。但是,時(shí)過(guò)境遷,在過(guò)去的20年里,合成語(yǔ)音發(fā)展神速,目前,合成語(yǔ)音已經(jīng)成為數(shù)字技術(shù)和相關(guān)經(jīng)濟(jì)產(chǎn)業(yè)的重頭戲了。合成語(yǔ)音是人機(jī)交互的基石,它賦予機(jī)器“形象”和“靈魂”,讓機(jī)器具有“個(gè)性”。在不遠(yuǎn)的未來(lái),從口袋里的手機(jī)開(kāi)始,合成語(yǔ)音將變得無(wú)處不在,我們甚至可能無(wú)法區(qū)分合成語(yǔ)音和真人語(yǔ)音的差別。

語(yǔ)音不再是人類的專利。機(jī)器合成的語(yǔ)音已經(jīng)可以和真人的相媲美了。

競(jìng)爭(zhēng)核心

數(shù)字技術(shù)巨頭谷歌、蘋(píng)果、微軟和亞馬遜是合成語(yǔ)音領(lǐng)域的重量級(jí)選手,它們把大量資金投入了與合成語(yǔ)音相關(guān)的技術(shù)研發(fā)領(lǐng)域。我們的智能手機(jī)已經(jīng)能夠聽(tīng)懂語(yǔ)音指令,并用合成語(yǔ)音回應(yīng)我們的問(wèn)題了。

合成語(yǔ)音未來(lái)將會(huì)融入私人助理技術(shù),也就是為我們服務(wù),成為幫助我們控制家中聯(lián)網(wǎng)設(shè)備的人工智能。它們總是能隨時(shí)隨地傾聽(tīng)我們的愿望、滿足我們的需求。像谷歌助理I/O、蘋(píng)果的Siri、微軟的小娜(Cortana)和亞馬遜的Alexa就是這樣的例子。

在全世界范圍內(nèi),有許多大學(xué)的實(shí)驗(yàn)室都在研究這個(gè)課題,例如英國(guó)劍橋大學(xué)、愛(ài)丁堡大學(xué)、美國(guó)的卡耐基梅隆大學(xué)、日本的奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)。在這些世界級(jí)的選手中,位于法國(guó)巴黎的聲學(xué)、音樂(lè)研究和協(xié)作學(xué)院(簡(jiǎn)稱Ircam)憑借對(duì)技術(shù)創(chuàng)新和文化藝術(shù)的獨(dú)到融合,脫穎而出。這所學(xué)院的獨(dú)到之處是已經(jīng)將合成語(yǔ)音應(yīng)用到了娛樂(lè)和內(nèi)容生產(chǎn)(如音樂(lè)、電影和電子游戲)的多個(gè)領(lǐng)域中。

雖然數(shù)字領(lǐng)域的巨頭和一些實(shí)驗(yàn)室一直對(duì)標(biāo)準(zhǔn)式合成語(yǔ)音的應(yīng)用感到沾沾自喜,但是Ircam的研究人員卻另辟蹊徑,從80年代開(kāi)始就致力于讓合成語(yǔ)音更具真人的特征:他們讓合成語(yǔ)音也具有聲紋、語(yǔ)氣、個(gè)性和表現(xiàn)力。

近10年里,Ircam的聲音分析和合成團(tuán)隊(duì)也取得了重大突破。得益于該團(tuán)隊(duì)的研究,合成語(yǔ)音變得不再呆板機(jī)械,變得更加自然、更富有表現(xiàn)力。而撐起這個(gè)質(zhì)的飛躍的,是信號(hào)處理、機(jī)器學(xué)習(xí)和語(yǔ)言學(xué)的一系列進(jìn)步。

目前的語(yǔ)音分析和合成算法已實(shí)現(xiàn)升級(jí),它們能夠更加忠實(shí)地還原人的聲紋。另外,我們對(duì)語(yǔ)音的韻律,以及它和句法之間的關(guān)系有了更深入的了解,這讓合成語(yǔ)音變得更加自然。

最后,新近引入的機(jī)器學(xué)習(xí),以及計(jì)算能力的快速提升都對(duì)相應(yīng)技術(shù)的飛速發(fā)展起到了決定性的作用。目前,在語(yǔ)音數(shù)據(jù)庫(kù)中,每個(gè)樣本都存儲(chǔ)著一個(gè)人數(shù)小時(shí)的錄音,而一個(gè)數(shù)據(jù)庫(kù)通常會(huì)儲(chǔ)存著數(shù)以千計(jì)的樣本,也就是數(shù)以千計(jì)的人聲。正是由于這些積累,現(xiàn)在的機(jī)器已經(jīng)能夠像人一樣開(kāi)口說(shuō)話了。

現(xiàn)在,有許多制片廠都在使用Ircam研發(fā)的軟件。利用這些軟件,人們能夠定制語(yǔ)音的聲紋、語(yǔ)氣、身份和個(gè)性。比如,這些軟件能夠輕而易舉地將男人的聲音變成女人的,把年輕人的聲音變得老態(tài)龍鐘,或是將老人的聲音變得年輕。

用這類軟件也能把一個(gè)人的聲音變成另一個(gè)人的。我們的計(jì)算機(jī)和智能手機(jī)就能通過(guò)這個(gè)軟件合成生動(dòng)自然、具有個(gè)性的語(yǔ)音,它們甚至能夠幫我們朗讀任何文本。

未來(lái),我們還能讓無(wú)法開(kāi)口說(shuō)話的人也發(fā)出聲音,或者讓機(jī)器模仿一個(gè)人的聲音說(shuō)外語(yǔ)。以后,我們就能像換發(fā)型一樣隨意變聲,或者和擁有獨(dú)一無(wú)二的嗓音的機(jī)器人自然流暢地交談。

這些科技進(jìn)步無(wú)疑會(huì)成為科技和商業(yè)競(jìng)爭(zhēng)的核心,還有倫理討論的焦點(diǎn)。而要實(shí)現(xiàn)這些進(jìn)步,研究人員必須先理解人類語(yǔ)音的獨(dú)特性,并做到善加利用。

雕刻語(yǔ)音

每個(gè)人的語(yǔ)音身份由兩個(gè)要素構(gòu)成:音色和韻律。要改變一個(gè)人的聲音,就要對(duì)這兩個(gè)要素進(jìn)行建模,這樣才能復(fù)制或者改變一個(gè)人的語(yǔ)音。2010年,Ircam的研究人員就研發(fā)了一款名為IrcamTools TRAX的軟件,它就能實(shí)現(xiàn)這樣的功能。

這款軟件能夠?qū)︿浺艋蛘咴捦仓械穆曇粜盘?hào)進(jìn)行數(shù)字處理。在調(diào)低或者調(diào)高音高后,聲音就會(huì)變得更低沉或更尖銳。它也能進(jìn)行數(shù)字濾波,改變語(yǔ)音的音色。通過(guò)這款軟件,使用者能夠輕而易舉地讓聲音變性,或者把中年人的聲音變成少年或是老年人的。

實(shí)際上,由于具有不同的生理特征(身高、身材胖瘦),男性和女性發(fā)音器官也有差異,這會(huì)影響他們發(fā)出的聲音。男性的聲帶更長(zhǎng)(17~25毫米),聲道也更長(zhǎng)(平均17厘米)。這樣的生理特征使得男性的音高更低(70~160Hz),音色也更低沉。

女性的聲帶(12.5~17.5毫米)和聲道(平均14厘米)均更短。因此女性的音高更高(130~300Hz),音色更“尖銳”。另外,一個(gè)的人的聲音和身體一樣會(huì)隨著年齡的增加而變化。一個(gè)人的嗓音在青少年時(shí)更尖細(xì),成年以后音色就會(huì)變得低沉,到了老年卻又會(huì)變得尖細(xì)。

通過(guò)這些基本原理,軟件可以調(diào)整聲音的音高和音色從而讓人產(chǎn)生錯(cuò)覺(jué),以為說(shuō)話的人變了性別或是改變了年紀(jì)。想要復(fù)制老年人特有的嗓音(比如顫音),就需要對(duì)數(shù)字處理做進(jìn)一步的修飾。上了年紀(jì)的人的發(fā)音器官一般不太靈便:他們的聲帶松弛,因此說(shuō)話時(shí)喘鳴聲更重,而且時(shí)常會(huì)失聲發(fā)出顫音。

最讓人驚訝的是,這種軟件能夠創(chuàng)造出不是天然存在的聲音,比如它能讓獅子說(shuō)人話。這種特效的秘訣在于將人的語(yǔ)音和獅子的吼叫聲混合在一起,用獅子的聲帶聲紋特征代替人的,同時(shí)保留人的共鳴腔聲效。處理后的音效簡(jiǎn)直讓人目瞪口呆:我們可以清楚地聽(tīng)到一個(gè)人在說(shuō)話,但是他的聲音里卻帶著獅子的喘鳴和低吼聲。

電影和動(dòng)畫(huà)行業(yè)的制片工程師經(jīng)常使用這種方法來(lái)處理演員的聲音,或者為虛構(gòu)角色配音?，F(xiàn)在,這些工程師的技術(shù)已經(jīng)更進(jìn)一步,能夠復(fù)制演員或者歷史人物的聲音了。在Ircam,經(jīng)常有人請(qǐng)求我們用留存的聲音資料復(fù)活故人的聲音。

用別人的嗓子說(shuō)話

韻律和音色可以用來(lái)區(qū)別不同人的特色。但是,當(dāng)一個(gè)人模仿別人說(shuō)話時(shí),這兩個(gè)嗓音特征會(huì)起到什么樣的作用?當(dāng)一個(gè)人(愛(ài)麗絲)模仿另一個(gè)人(伯納德)說(shuō)話時(shí),其實(shí)她主要模仿的是伯納德語(yǔ)音的韻律。

要想模仿別人的音色不是一件容易的事。因?yàn)槿说穆暤莱叽缡怯缮頉Q定的,每個(gè)人都不同。所以,即使是最才華橫溢的模仿高手,也無(wú)法精確地復(fù)制另一個(gè)人的音色,僅能大致模仿他說(shuō)話的韻律。

想要真實(shí)地還原一個(gè)人的嗓音,就必須復(fù)制他的音色。首先,要用伯納德(被模仿者)的錄音建立一套“語(yǔ)音面具”,然后為愛(ài)麗絲(模仿者)的聲音戴上這種“語(yǔ)音面具”。

這樣看來(lái),要復(fù)制一個(gè)人的嗓音,就必須先收集這個(gè)人的錄音,組成一個(gè)數(shù)據(jù)庫(kù)。這些數(shù)據(jù)會(huì)被切成音素,做進(jìn)一步分析,然后組合出被復(fù)制者的聲學(xué)特征。具體來(lái)說(shuō),每個(gè)音素都有一個(gè)“語(yǔ)音面具”(一種聲音濾波器),它能夠調(diào)節(jié)聲音中不同頻率成分的強(qiáng)度比例。

在轉(zhuǎn)換聲音身份的時(shí)候,只需要將“語(yǔ)音面具”復(fù)制粘貼即可。針對(duì)愛(ài)麗絲的每個(gè)音素,系統(tǒng)都會(huì)在伯納德的聲音數(shù)據(jù)庫(kù)中挑選相應(yīng)的音素濾波器,從而進(jìn)行替換。

在愛(ài)麗絲的聲音數(shù)據(jù)庫(kù)中,相應(yīng)的算法會(huì)挑選使轉(zhuǎn)換聽(tīng)起來(lái)最逼真的聲音濾波器序列。在經(jīng)過(guò)一系列操作和處理后,愛(ài)麗絲的聲音就有了伯納德的音色。

這個(gè)技術(shù)面世后的首個(gè)應(yīng)用就是在電影中再現(xiàn)瑪麗蓮·夢(mèng)露(Marilyn Monroe,《瑪麗蓮》(Marilyn)的嗓音,隨后,又在多部電影中重現(xiàn)了多位歷史人物的對(duì)白。

比如要模仿喜劇演員路易·德菲內(nèi)斯,演員就要模仿他的韻律按照劇本的人物臺(tái)詞表演,此時(shí)的聲音會(huì)被分段記錄下來(lái)。與此同時(shí),研究人員還利用德菲內(nèi)斯的歷史錄音建立起一個(gè)長(zhǎng)達(dá)十分鐘的數(shù)據(jù)庫(kù)。

通過(guò)這個(gè)數(shù)據(jù)庫(kù)和剛才的一系列處理手段,研究人員就可以利用德菲內(nèi)斯的聲音特征將演員的音色轉(zhuǎn)化成他的樣子。而德菲內(nèi)斯發(fā)出的聲音就像是最近才錄的,但其實(shí),聲音的原材料都來(lái)自他在70年代拍的電影。

聲音拼圖

Ircam 的研究人員通過(guò)合成語(yǔ)音拓展了語(yǔ)音處理的邊界?，F(xiàn)在,用錄音改變一個(gè)人聲音的技術(shù)已經(jīng)成熟,如何用合成語(yǔ)音來(lái)朗讀任意文本卻成了最大的問(wèn)題。

要考據(jù)合成語(yǔ)音的歷史,可以追溯到18世紀(jì)。那時(shí)已經(jīng)出現(xiàn)了汽車和可以發(fā)音的機(jī)器了。進(jìn)入20世紀(jì)后,電力的出現(xiàn)讓這些機(jī)器變得更先進(jìn)、更完美,1939年由貝爾實(shí)驗(yàn)室制造的VODER(語(yǔ)音操作演示器)就是其中一例。當(dāng)計(jì)算機(jī)出現(xiàn)后,一切又變得自動(dòng)化了。

目前,語(yǔ)音合成系統(tǒng)已經(jīng)完全實(shí)現(xiàn)了自動(dòng)化,它們能夠讓數(shù)字聲音具有個(gè)性。語(yǔ)音合成在本質(zhì)上依賴的是語(yǔ)音數(shù)據(jù)庫(kù),如果要生成合成語(yǔ)音,只需要幾個(gè)小時(shí)的真人錄音就可以了。

語(yǔ)音合成和語(yǔ)音轉(zhuǎn)換不同,它不僅要轉(zhuǎn)換現(xiàn)有語(yǔ)音的特征,還要用基礎(chǔ)的語(yǔ)音元素完整地重塑語(yǔ)言,朗誦任何文本。目前大多數(shù)合成器的基本工作原理都是“基元選取”(unit selection),這非常類似于拼圖游戲。

每個(gè)基元是一段有特定韻律和音色的口語(yǔ)語(yǔ)料(包括音素、音節(jié)、詞語(yǔ)等)。語(yǔ)料數(shù)據(jù)庫(kù)就像拼圖的集合,要有盡量豐富的語(yǔ)料才能滿足合成語(yǔ)音時(shí)多變的需要。

在為一段文本合成語(yǔ)音時(shí),要找到與文本對(duì)應(yīng)的語(yǔ)料片段,從而進(jìn)行組合。重組的過(guò)程就像跋山涉水一樣麻煩:算法要先從數(shù)據(jù)庫(kù)中挑選出大量的語(yǔ)料片段,但是語(yǔ)料本身有各自的聲學(xué)特征,無(wú)法直接簡(jiǎn)單地拼湊到一起。要合成語(yǔ)音一段語(yǔ)音,就要盡量找到那些前后連貫的語(yǔ)料片段。

為了讓合成語(yǔ)音聽(tīng)起來(lái)自然,既要保證音素之間配合得天衣無(wú)縫,還要保證文本本身易于被理解。另外,還要考慮到音素整體表現(xiàn)出的音樂(lè)感,也就是韻律。

語(yǔ)音還原的質(zhì)量主要取決于數(shù)據(jù)庫(kù)的容量:每段口語(yǔ)語(yǔ)料的素材數(shù)量越多,音素間的連接就越流暢、韻律就越豐滿。最后,成品還要經(jīng)過(guò)算法做局部潤(rùn)色,這樣才能讓語(yǔ)料之間的連接沒(méi)有明顯瑕疵,讓斷句更流暢。

2000年后,在語(yǔ)言學(xué)、信號(hào)處理和機(jī)器學(xué)習(xí)方面的進(jìn)展,使合成語(yǔ)音韻律的建模能力有了驚人的進(jìn)步。過(guò)去的合成語(yǔ)音僅僅勉強(qiáng)能聽(tīng),現(xiàn)在的合成語(yǔ)音聽(tīng)起來(lái)不僅很自然,還很有表現(xiàn)力。

天然和人工之間的界限變得模糊了。在機(jī)器學(xué)習(xí)的幫助下,可以用上千種不同的語(yǔ)音創(chuàng)造出“平均”合成語(yǔ)音,當(dāng)然,也可以用幾個(gè)不同人的語(yǔ)音制造出混合語(yǔ)音,或者將某人的口音、情緒和說(shuō)話的風(fēng)格移花接木到另一個(gè)人身上。

這些處理的原理與“基元選取”是類似的,但具體的操作有很大的差異。這類方法并不是采用真人錄制的口語(yǔ)語(yǔ)料直接合成語(yǔ)音,而是用一個(gè)統(tǒng)計(jì)模型來(lái)表示一個(gè)人的語(yǔ)音。這個(gè)統(tǒng)計(jì)模型是對(duì)語(yǔ)音的數(shù)學(xué)抽象,通過(guò)它可以復(fù)制和生成合成各種各樣的語(yǔ)音。

利用統(tǒng)計(jì)分布規(guī)律(正態(tài)分布的平均值和方差),就能為每一個(gè)音素在聲學(xué)空間(以音高、持續(xù)時(shí)間、音強(qiáng)和音色為參數(shù)的參數(shù)空間)中的分布建模。

選取的語(yǔ)音參數(shù)會(huì)隨著說(shuō)話的進(jìn)程變化而變化,為了給這個(gè)過(guò)程建模還需要用到關(guān)于時(shí)間序列的模型(如隱馬爾可夫模型)。在這類模型里,每個(gè)音素都會(huì)被分割成一系列“狀態(tài)”,比如開(kāi)始、中間、結(jié)束,而每個(gè)狀態(tài)都有各自的統(tǒng)計(jì)分布。

通過(guò)聲學(xué)空間統(tǒng)計(jì)參數(shù)的組合、插值和自適應(yīng),這套系統(tǒng)可以對(duì)聲音的各項(xiàng)抽象特征進(jìn)行計(jì)算。比如,我們能夠利用兩個(gè)真人語(yǔ)音的統(tǒng)計(jì)參數(shù)制造出混合語(yǔ)音,也可以將幾千個(gè)人的語(yǔ)音組合成平均語(yǔ)音。

這種技術(shù)進(jìn)步使文本合成語(yǔ)音的效率發(fā)生了翻天覆地的變化:它不再依賴于真人語(yǔ)音,只需要幾分鐘長(zhǎng)度的錄音就可以快速合成新的語(yǔ)音。

所以,即便這個(gè)人已經(jīng)無(wú)法出聲,只要利用幾分鐘錄音資料就能再現(xiàn)他的聲音。而且,就算不會(huì)說(shuō)外語(yǔ),現(xiàn)在的技術(shù)已經(jīng)能實(shí)現(xiàn)用本人的聲音合成外文語(yǔ)音。

雖然合成語(yǔ)音已經(jīng)取得了令人矚目的成績(jī),但是,還有進(jìn)步的空間。在合成語(yǔ)音的過(guò)程中,始終需要人力輔助才能得到優(yōu)良的合成效果。而現(xiàn)在,人工智能、人工神經(jīng)網(wǎng)絡(luò)下的深度學(xué)習(xí)和大數(shù)據(jù)領(lǐng)域的變革,都為語(yǔ)音合成注入了新鮮的血液。

在人工神經(jīng)網(wǎng)絡(luò)技術(shù),或者說(shuō)神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)的硬件設(shè)備或者虛擬設(shè)備是由一層一層的“神經(jīng)元”構(gòu)成的,每個(gè)“神經(jīng)元”都有兩種可能的狀態(tài)。神經(jīng)元之間相互連結(jié),在學(xué)習(xí)的過(guò)程中算法會(huì)對(duì)“神經(jīng)元”的特征進(jìn)行調(diào)整。

在70年代,神經(jīng)網(wǎng)絡(luò)被引入到了語(yǔ)音處理中,當(dāng)時(shí),人們認(rèn)為這種結(jié)構(gòu)能夠模擬大腦的工作方式,從而更好地完成機(jī)器學(xué)習(xí)。然而,神經(jīng)網(wǎng)絡(luò)的發(fā)展一度受到理論、算法,以及當(dāng)時(shí)十分有限的計(jì)算能力的限制。

近10年,理論進(jìn)步和計(jì)算能力的飛速發(fā)展,讓神經(jīng)網(wǎng)絡(luò)技術(shù)再次回到了舞臺(tái)。

一些為深度神經(jīng)網(wǎng)絡(luò)(深度指的是包含多層神經(jīng)元網(wǎng)絡(luò))量身定制的新的學(xué)習(xí)算法也逐漸出現(xiàn)在人們的眼前。這些深度神經(jīng)網(wǎng)絡(luò)的算法非常依賴大數(shù)據(jù)。

這些技術(shù)給了人們很大的想象空間。在未來(lái),我們可能會(huì)創(chuàng)造出與真人語(yǔ)音沒(méi)有差異的數(shù)字語(yǔ)音,它甚至能用任何語(yǔ)言傳遞信息,我們還能根據(jù)需求給它賦予獨(dú)特的個(gè)性。

在未來(lái)我們可以隨心所欲地改變自己的嗓音,我們能與聲音無(wú)異于真人的智能機(jī)器順暢地進(jìn)行日常交流。然而,這種機(jī)器到底是天使,還是惡魔呢?這種技術(shù)已經(jīng)引起了一部分人的反感,也引出了這樣一個(gè)基本問(wèn)題:在我們的社會(huì)中,合成語(yǔ)音以及人性化的機(jī)器究竟算什么?

用多人語(yǔ)音合成,或是用別人語(yǔ)音轉(zhuǎn)化而來(lái)的聲音究竟屬于誰(shuí)?它屬于復(fù)制人嗎,還是改造人?或者應(yīng)該屬于創(chuàng)造它的研究者和工程師?怎樣區(qū)分合成語(yǔ)音和真人語(yǔ)音的差異?

如果能仿造某人的語(yǔ)音,怎樣鑒定語(yǔ)音留言的真實(shí)性?合成語(yǔ)音的人格化和機(jī)器人的人形外貌一樣,也發(fā)人深思。如果機(jī)器的聲音太像真人,我們是否陷入了日本機(jī)器人學(xué)家森政弘提出的“恐怖谷”怪圈?

開(kāi)放分享：優(yōu)質(zhì)有限元技術(shù)文章,助你自學(xué)成才