世界衛(wèi)生組織估計目前全球有4.66億人患耳聾或聽力障礙,這個群體有多大?來自印度孟買的谷歌 AI Research Group的產(chǎn)品經(jīng)理Sagar Salva這樣形容:如果把這個數(shù)字當成是一個國家的人口的話,這個“國家”就是世界人口第三大國了。
今年2月底,谷歌宣布推出Live Transcribe,一款旨在幫助聽力障礙人士溝通并且免費的字幕自動生成安卓服務(wù),Sagar Salva正是負責(zé)這一產(chǎn)品的產(chǎn)品經(jīng)理。在近期的一次媒體溝通中,Sagar Salva向騰訊《一線》介紹了研發(fā)并推出Live Transcribe服務(wù)背后的思考。
根據(jù)谷歌方面提供的信息,Live Transcribe目前支持70多種語言,覆蓋了世界上80%的人群;它以接近實時的速度轉(zhuǎn)錄一對一的對話,延遲低于200毫秒;這一服務(wù)能夠很好地結(jié)合上下文,對于發(fā)音相似或相同的字詞進行合理選擇,避免產(chǎn)生誤解;針對一些家庭同時講兩種語言的情況,Live Transcribe App里設(shè)置了在兩種語言間進行快速切換的按鍵。Live Transcribe 現(xiàn)已在 Play 商店中分階段推出,且所有 Pixel 3 設(shè)備均預(yù)裝此功能的最新版本。用戶可以通過 “無障礙設(shè)置” 啟用 Live Transcribe。
Sagar Salva介紹,工程師們?yōu)長ive Transcribe設(shè)計了兩種不同類型的神經(jīng)網(wǎng)絡(luò)支持著該服務(wù)的正常運轉(zhuǎn)。第一種是在設(shè)備上運行的神經(jīng)網(wǎng)絡(luò),它主要做聲音分類的工作,例如區(qū)分嬰兒的哭聲或玻璃破碎的聲音,它會把這些聲音在整個實時轉(zhuǎn)錄過程中,快速地進行分類和辨析。第二個神經(jīng)網(wǎng)絡(luò)模型在云端運行,這一規(guī)模更大的神經(jīng)網(wǎng)絡(luò)模型主要完成語音轉(zhuǎn)錄成文字的工作。
選擇這樣的技術(shù)架構(gòu)搭建服務(wù),主要出于讓更多人能夠接觸到這一服務(wù)的目的。Sagar Salva認為,云端神經(jīng)網(wǎng)絡(luò)的支持使得這款產(chǎn)品即使在比較低配的手機上也能運行,某種程度上可以更好地擴大這款A(yù)PP覆蓋人群的范圍。
“這也就意味著我們的Live Transcribe實時轉(zhuǎn)錄的這個App,可以在全球20萬余臺安卓設(shè)備上運行。”
技術(shù)細節(jié)上,具體而言,云端模型分為三個部分,第一個部分是聲音模型,也成為聲學(xué)模型,主要是辨別一個單詞中的不同音節(jié);第二個模型是發(fā)音的模型,把第一個模型辨別出來的音節(jié)組成實際的單詞;第三個模型是語言模型,即根據(jù)識別出的單詞增加適當?shù)臉它c符號和停頓,這類語言方面的一些意義。
云端模型三個部分示意圖
設(shè)備端的模型為聲音分類的識別模型。Sagar Salva介紹,其所在的小組兩年前把YouTube上大量語音的數(shù)據(jù)做了開源,也就是在社區(qū)中的任何一位開發(fā)員,都可以針對這些音頻的文件,做自己的開發(fā)。
開發(fā)Live Transcribe的過程中,Sagar Salva和他的同事們主要面臨三個挑戰(zhàn):一是什么終端是最適合搭載這一服務(wù)的;二是實時顯示的字幕是否要顯示轉(zhuǎn)錄的置信度(即轉(zhuǎn)錄出的語言的準確度);三是如何處理環(huán)境噪音的問題。
針對第一個問題,綜合考慮多種因素,智能手機成為最終選擇,在Sagar Salva看來,“考慮到目前全球已經(jīng)有20億人在使用安卓的手機,我們認為做這樣的一種硬件平臺的選擇,其實對于全球而言都是可以說價格成本最低廉的一種選擇了。”
從體驗效果來看,由于認為顯示置信度信息會干擾用戶,最終Live Transcribe選擇不體現(xiàn)置信度。
對于環(huán)境噪音的問題,事實上,語音識別一直面臨著一個名為“雞尾酒會”的問題,即當談話對象很多、環(huán)境聲音嘈雜時,如何辨識我的談話對象。針對這一問題,Sagar Salva及其團隊利用機器學(xué)習(xí)開發(fā)了一款語音識別技術(shù),最終的實現(xiàn)效果是在Live Transcribe呈現(xiàn)一個實心圓點,圓點的不同狀態(tài)可以提示聽障人士其當下所處環(huán)境的噪音大小,可提示其選擇轉(zhuǎn)移到更加安靜的地方進行談話。
值得注意的是,谷歌有一個著名的20%項目:鼓勵員工利用20%的時間用于創(chuàng)新。在Sagar Salva看來,Live Transcribe的誕生正是得益于這一倡導(dǎo)。
Sagar Salva向騰訊《一線》透露,Live Transcribe第一個原型產(chǎn)品就是屬于20%創(chuàng)新項目的,但是開始不久他們立刻意識到,這其實是一個非常切實的項目。
“因為在谷歌我們也有一些聾人的員工,當他們拿到這個產(chǎn)品的時候,他們幾乎每天無時無地不在使用,所以最終我們其實是把它作為了一個實際的項目。也就是說在這個項目作為創(chuàng)新項目啟動之后一個月,我們就實際上把這個項目固定下來了,建立了相應(yīng)的產(chǎn)品開發(fā)團隊。其實確實這種20%的項目,能夠讓谷歌內(nèi)部快速把一些大膽的創(chuàng)新的點子快速做出原型產(chǎn)品,甚至做出非常有創(chuàng)新意義的產(chǎn)品。”