中國計算機報(2011年30期)-正文語音識別質量最重要

新聞背後

作者：俞悅

2008年Google推出用於移動設備的語音搜索產品。時隔大約3年後，今年6月，Google推出了桌麵語音搜索產品，把語音識別和計算機視覺技術帶到桌麵電腦上。桌麵語音搜索是Google提供的一種新的搜索方式。通過使用Google Chrome瀏覽器（目前僅限於開發版本），用戶可以在 google.com搜索框的右側看到一個麥克風圖標，點擊這一圖標，然後說出搜索請求，用戶就能看到Google搜索反饋的結果。

Google語音搜索研究科學家Pedro Moreno近日告訴《中國計算機報》記者，桌麵語音搜索功能背後的技術和手機語音搜索背後的技術幾乎是相同的。“最大的區別在於，我們為台式機開發了聲學模型和桌麵麥克風，並且將台式機的語音搜索與Google Instant緊密集成，以使其反應更快”。

語音識別質量永遠最重要

Google的語音識別技術建立在統計模型基礎之上。為了識別口頭字詞，Google的係統會將輸入的語音與語言統計模型對比，並試圖找到最相近的匹配結果。

“這個統計模型非常龐大，它幾乎涵蓋了一種語言的所有基本發音，以及這種語言在表達過程中所有不同字詞的組合。而且，係統還捕獲了這種語言所有的變調，比如不同的方言、發音和不同個體在聲音方麵的不同。” Pedro Moreno表示。

實際上，做搜索產品需要考慮準確性、實時性、搜索速度這些產品特性，而語音搜索還需要考慮語音的識別準確性等。在這些因素中，Pedro Moreno認為，語音識別的質量永遠是最重要的因素。“當我們在某個應用程序中的準確率提高時，人們會回過頭來再次使用它。而現實中，很多因素都會影響到語音識別的準確率。例如，如果你站在一個嘈雜的街角，可能會有很多背景噪聲，從而導致聲音在轉錄中出現錯誤。” Pedro Moreno指出。而提高識別準確性一直是Pedro Moreno和他的同事不斷追求的。

處理語言越多研究越容易

“在我們研發出普通話語音搜索技術後，我們找到Google的管理層，並建議再增加4種語言。Google管理層給出的答案是‘不要加4種語言，而是40種，而且要在兩年內完成’。”就這樣，Pedro Moreno開始進行更多語言的研究。

在研究中，Pedro Moreno發現每個新的語言都會帶來新的挑戰：“普通話使用的音調，不像西方語言。此外，在普通話中，一個字的概念是模糊的，需要輔助以字段分析技術。” Pedro Moreno表示，“而俄語的語調研究起來很困難，德語或土耳其語等其他語言則高度黏著（他們經常將一些字詞組合成新的字詞或短語，通過在名詞、動詞等後麵加上不同的詞尾來實現語法功能）。”

不同的新挑戰讓Google研究團隊獲得了更多的解決方案。Pedro Moreno告訴記者，隨著處理的語言越來越多，他們的研究也變得更為簡單。例如，Pedro Moreno和他的同事從研究普通話語音搜索中汲取的寶貴經驗，讓他們得以使用很多創新的方法來研究其他新語言的語音搜索。

Google的雄心

“我們的目標是讓用戶隨時隨地能夠使用語音識別技術，隻要需要打字的地方，就可以用說話來代替。這是個雄心勃勃的目標，正是這個長期的願景一直激勵著我們。” Pedro Moreno告訴本報記者。

基於這樣的目標，語音識別技術不僅被應用在了移動設備語音搜索產品以及桌麵語音搜索產品中，還被應用到了更多的Google服務中。

例如，在Android係統中也有一些語音操作的應用，用戶可以通過語音來導航、發短信。此外，用戶可以在Google Voice 中轉錄語音郵件。Pedro Moreno透露，他們還在試驗轉錄一些YouTube視頻上的音頻內容。“這還處於初級階段，因為視頻的音質一般很不完善，存在很多問題，包括麥克風質量差、聲源距離遠、聲音重疊、背景嘈雜、有背景音樂等。但我們所做的試驗是激動人心的，它可以讓更多的人訪問到視頻。”