過(guò)去一年,從谷歌眼鏡開(kāi)始,穿戴式設(shè)備、智能家居和車(chē)載設(shè)備的興起,將語(yǔ)音識(shí)別技術(shù)推到應(yīng)用的前臺(tái)。
對(duì)整個(gè)語(yǔ)音識(shí)別行業(yè)而言,過(guò)去一年也經(jīng)歷了前所未有的繁榮,語(yǔ)音識(shí)別技術(shù)也有大幅度提高,特別是對(duì)新興創(chuàng)業(yè)公司而言,語(yǔ)音識(shí)別技術(shù)不再如過(guò)去那樣封閉,而是逐步開(kāi)放和開(kāi)源,語(yǔ)音技術(shù)門(mén)檻逐漸降低。“專(zhuān)業(yè)公司的語(yǔ)音識(shí)別可以做到90%,小廠(chǎng)商可以利用開(kāi)源技術(shù)至少可以做到70%左右的識(shí)別率。”語(yǔ)音識(shí)別的業(yè)內(nèi)人士這樣判斷。
實(shí)際上,即使如專(zhuān)業(yè)語(yǔ)音識(shí)別廠(chǎng)商科大訊飛、云知聲、思必馳等都可以做到90%以上的語(yǔ)音識(shí)別正確率,單獨(dú)的語(yǔ)音識(shí)別在可穿戴設(shè)備中的應(yīng)用依然不夠“聽(tīng)話(huà)”。這甚至成為整體語(yǔ)音技術(shù)應(yīng)用的一個(gè)最大痛點(diǎn)。
“語(yǔ)音識(shí)別的遺憾是再努力做也做不到百分之百”。智能語(yǔ)音技術(shù)創(chuàng)業(yè)公司思必馳首席科學(xué)家俞凱這樣判斷。
劍橋大學(xué)皇家工程院院士史蒂夫.楊(Steve Young)教授是語(yǔ)音識(shí)別界的權(quán)威人物,多年前開(kāi)始思考另一個(gè)方向:“在識(shí)別有錯(cuò)誤,或者在理解有歧義的情況下,人和人之間可以繼續(xù)對(duì)話(huà)溝通達(dá)成目標(biāo),機(jī)器也應(yīng)可以做到。”
沿著在英國(guó)奠定的“對(duì)話(huà)”技術(shù)路徑,作為史蒂夫.楊的對(duì)話(huà)系統(tǒng)研究團(tuán)隊(duì)早期核心成員,劍橋大學(xué)語(yǔ)音識(shí)別博士俞凱,和另一位同在劍橋大學(xué)畢業(yè)的高始興回國(guó)創(chuàng)業(yè),創(chuàng)立了思必馳。從思必馳的進(jìn)展來(lái)看,不糾結(jié)于語(yǔ)音識(shí)別的識(shí)別率的完美主義,而死磕人機(jī)交互的“對(duì)話(huà)”系統(tǒng)似乎可成為如何讓可穿戴設(shè)備真正能用上語(yǔ)音技術(shù)的“捷徑”之一。
語(yǔ)音助手的尷尬
自蘋(píng)果iPhone 4S內(nèi)置Siri以來(lái),幾乎所有的手機(jī)都開(kāi)始內(nèi)置語(yǔ)音助手類(lèi)的應(yīng)用。除了谷歌Now、蘋(píng)果Siri,國(guó)內(nèi)如百度、搜狐等公司都推出了語(yǔ)音助手類(lèi)應(yīng)用。
一年后,助手類(lèi)應(yīng)用幾乎都面臨著功能的同質(zhì)化、用戶(hù)體驗(yàn)不足、語(yǔ)音識(shí)別準(zhǔn)確率在復(fù)雜條件下距離實(shí)用化尚有距離的問(wèn)題。
Siri的迭代可以解釋助手的尷尬。在蘋(píng)果發(fā)布iPhone 一代和二代時(shí)并沒(méi)有沒(méi)有語(yǔ)音驅(qū)動(dòng)。在當(dāng)時(shí),蘋(píng)果的一個(gè)調(diào)研顯示,75%的用戶(hù)希望在手機(jī)中內(nèi)置語(yǔ)音應(yīng)用。隨后,蘋(píng)果在iPhone3GS中加入了語(yǔ)音控制的功能。實(shí)際應(yīng)用中,不到5%的人會(huì)使用語(yǔ)音控制。蘋(píng)果內(nèi)部的總結(jié)發(fā)現(xiàn),用戶(hù)不使用語(yǔ)音控制不是不喜歡語(yǔ)音應(yīng)用,而是由于語(yǔ)音控制不是用戶(hù)的自然交互。
“有87%的用戶(hù)每月至少使用一次Siri,但大多數(shù)用戶(hù)都是和Siri聊天。而不是通過(guò)Siri完成任務(wù)。”Siri的一位負(fù)責(zé)人發(fā)布了這樣的數(shù)據(jù)。
“Siri給我們的啟示是,未來(lái)智能語(yǔ)音技術(shù)的發(fā)展,必須同時(shí)解決自然語(yǔ)言交互和完成有用任務(wù)的問(wèn)題,而且限制越少越好,缺了哪個(gè)都不行。”俞凱說(shuō)。
去年,Siri被重新整合到蘋(píng)果的內(nèi)容和服務(wù)部門(mén),且設(shè)立的四個(gè)研發(fā)組中一個(gè)與語(yǔ)音識(shí)別相關(guān),三個(gè)全都是與對(duì)話(huà)系統(tǒng)相關(guān)。另一家巨頭谷歌于去年9月對(duì)外公布新算法“Hummingbird(蜂鳥(niǎo))”目的是發(fā)展語(yǔ)義搜索;12月在巴黎舉行的LeWeb上透露將采用反復(fù)對(duì)話(huà)的形式進(jìn)行搜索。
俞凱認(rèn)為,這個(gè)舉動(dòng)暗示巨頭的戰(zhàn)略在從語(yǔ)音識(shí)別向?qū)υ?huà)交互的方向邁進(jìn)。
用對(duì)話(huà)交互解決痛點(diǎn)
對(duì)于那些不方便使用鍵盤(pán)和鼠標(biāo)輸入的設(shè)備而言,語(yǔ)音識(shí)別技術(shù)成為更有效的輸入手段,幫助用戶(hù)解決了輸入的困難。
“有了語(yǔ)音識(shí)別,將語(yǔ)音轉(zhuǎn)換成文本,再將文本用自然語(yǔ)言處理轉(zhuǎn)換成語(yǔ)義就完成任務(wù)了么?”俞凱認(rèn)為,這些還不夠。“語(yǔ)音技術(shù)的本意是幫助用戶(hù)最快地完成任務(wù),但語(yǔ)音識(shí)別+自然語(yǔ)言處理不能徹底解決這個(gè)問(wèn)題。”
單純的語(yǔ)音識(shí)別的另一個(gè)局限是,識(shí)別+自然語(yǔ)言處理本質(zhì)上是根據(jù)文本理解,語(yǔ)音先轉(zhuǎn)換成文本,自然語(yǔ)言理解僅僅針對(duì)文本進(jìn)行,這種模式很難應(yīng)對(duì)語(yǔ)音識(shí)別的錯(cuò)誤,也無(wú)法理解用戶(hù)意圖的模糊性。
這是由于,人天生的傾向于用非精確的信息來(lái)交互,因?yàn)榉蔷_的信息傳輸量更大,更方便。機(jī)器卻是需要有精確信息來(lái)處理才能讓識(shí)別和自然語(yǔ)言處理更準(zhǔn)確。這是一對(duì)天然的矛盾。
例如說(shuō)“去九寨溝吃飯”,到底是去風(fēng)景區(qū),還是去一個(gè)叫九寨溝的餐館是不清楚的。因?yàn)樵谧R(shí)別過(guò)程中沒(méi)有針對(duì)交互過(guò)程中的上下文建立對(duì)話(huà)模型和聯(lián)系歷史信息,這類(lèi)用戶(hù)意圖的模糊是無(wú)法由自然語(yǔ)言處理完成的。
“我們把識(shí)別、理解、決策、合成等對(duì)話(huà)系統(tǒng)的各個(gè)模塊進(jìn)行聯(lián)合優(yōu)化,在每個(gè)模塊出現(xiàn)處理上的偏差的時(shí)候,基于全系統(tǒng)豐富的非精確信息進(jìn)行計(jì)算,更新交互,實(shí)現(xiàn)順暢對(duì)話(huà)。在自然語(yǔ)言理解的基礎(chǔ)上,又允許有不確定性的信息,綜合去做理解和交互決策。”俞凱說(shuō)。
劍橋語(yǔ)音技術(shù)血統(tǒng)的創(chuàng)業(yè)
科大訊飛的創(chuàng)始團(tuán)隊(duì)來(lái)自于中國(guó)科技大學(xué),云知聲的團(tuán)隊(duì)來(lái)自于中科院自動(dòng)化所和盛大創(chuàng)新院。
在科大訊飛開(kāi)始做語(yǔ)音識(shí)別技術(shù)之前,90年代初期,劍橋大學(xué)開(kāi)發(fā)的HTK語(yǔ)音識(shí)別工具已經(jīng)將實(shí)驗(yàn)室研究的語(yǔ)音識(shí)別技術(shù)的代碼標(biāo)準(zhǔn)化,并免費(fèi)提供給開(kāi)發(fā)者,普及了語(yǔ)音識(shí)別技術(shù)的開(kāi)發(fā),至今也是全世界使用最為廣泛的開(kāi)源軟件之一。
思必馳的創(chuàng)業(yè)血統(tǒng)來(lái)自于劍橋大學(xué)。俞凱和思必馳CEO高始興是在劍橋的師兄弟。俞凱曾和對(duì)話(huà)領(lǐng)域的奠基人史蒂夫.楊搭檔開(kāi)展語(yǔ)音對(duì)話(huà)交互的研究和產(chǎn)業(yè)化工作。
2011年,高始興看到中國(guó)市場(chǎng)上智能設(shè)備上有爆發(fā)之勢(shì),請(qǐng)俞凱回國(guó),并從漢語(yǔ)和英語(yǔ)口語(yǔ)評(píng)測(cè)的方向轉(zhuǎn)型,在完成高精度的云端語(yǔ)音識(shí)別之后,重點(diǎn)實(shí)現(xiàn)對(duì)話(huà)系統(tǒng)技術(shù)。
“2011年,我們的首輪融資來(lái)自聯(lián)想之星。之所以在眾多投資者中選擇聯(lián)想,是聯(lián)想之前投資了科大訊飛有關(guān)。聯(lián)想是唯一一家投過(guò)語(yǔ)音識(shí)別企業(yè)的。”高始興說(shuō)。
去年9月,思必馳發(fā)布了國(guó)內(nèi)第一個(gè)對(duì)話(huà)平臺(tái)——對(duì)話(huà)工場(chǎng),以對(duì)話(huà)為核心的智能語(yǔ)音交互技術(shù)開(kāi)放平臺(tái),核心是不僅讓機(jī)器聽(tīng)清人話(huà),還能聽(tīng)懂,并完成任務(wù)。
截止到目前,聯(lián)想、蘇州電信、同程網(wǎng)、土曼智能手表、幻騰智能燈、智能家居Broadlink、驢媽媽等都采用了思必馳的語(yǔ)音技術(shù)解決方案。“互聯(lián)網(wǎng)的合作伙伴有20家,手機(jī)等智能設(shè)備的合作伙伴也有20家。還有一些智能客服的合作伙伴。”高始興透露。
不過(guò)他認(rèn)為,和廠(chǎng)商的合作并非接入語(yǔ)音識(shí)別的技術(shù)方案那樣簡(jiǎn)單,更重要的是與業(yè)務(wù)的耦合。
語(yǔ)音助手類(lèi)的應(yīng)用的尷尬在于只是識(shí)別引擎,效果不好很容易被其他助手替換。如果能與合作伙伴的業(yè)務(wù)能深度耦合,“一方面給合作伙伴的業(yè)務(wù)帶來(lái)用戶(hù)粘性,同時(shí)還可以通過(guò)該業(yè)務(wù)用戶(hù)的語(yǔ)音語(yǔ)料做自身技術(shù)方案的優(yōu)化,同時(shí)還能提升用戶(hù)體驗(yàn),多方共贏。”高始興說(shuō)。