劉俊峰:汽車都應(yīng)配語音交互系統(tǒng) 無屏化仍有不少障礙
2018-01-10 17:56:00 來源:騰訊汽車

北京時(shí)間1月10日上午,以“機(jī)器之光—2018 CES,騰訊汽車的朋友圈”為主題的特別沙龍活動(dòng)在美國拉斯維加斯舉辦。

科大訊飛智能汽車事業(yè)部總裁劉俊峰介紹說,在2010年之前,幾乎在車上主流的交互模式或者是邏輯,都是由國外的一些車廠設(shè)計(jì)中心和供應(yīng)商聯(lián)合制訂的。再加上那時(shí)缺少互聯(lián)網(wǎng)、缺少鏈接、缺少數(shù)據(jù)迭代,也沒有更智能的計(jì)算平臺(tái),這就造成盡管花了很多錢去做語音交互和設(shè)計(jì),但是用戶體驗(yàn)卻很糟。

據(jù)他透露,科大訊飛已經(jīng)在做基于場景的語義喚醒,由其配合國內(nèi)一些自主品牌廠商的設(shè)計(jì)中心,以及一些合資和外資品牌在中國的技術(shù)研發(fā)中心共同在做,開始重新制訂標(biāo)準(zhǔn)。

劉俊峰認(rèn)為,不管什么檔次的車,都需要在車上有非常好用的以安全為主、層級(jí)比較短的扁平化為主的語音交互系統(tǒng)。

劉俊峰指出,科大訊飛一直在嘗試做無屏化,但過程有很多的障礙。首先是人的習(xí)慣,人不愿意面對(duì)冷冰冰的機(jī)器講話,大多數(shù)人認(rèn)為應(yīng)該有互動(dòng)。但如果互動(dòng)是無屏化的,用戶又難以感受到互動(dòng)的存在。

以下為發(fā)言實(shí)錄:

劉俊峰:在2010年之前,幾乎在車上主流的交互模式或者是邏輯,都是由國外的一些車廠設(shè)計(jì)中心和供應(yīng)商聯(lián)合制訂的。這個(gè)過程會(huì)造成從國外引入到國內(nèi)的時(shí)候,只通過一個(gè)簡單的漢化,造成很多界面操作的反人性。這也使得盡管花了很多的錢去做語音交互,去做所謂的設(shè)計(jì),但是從用戶在車上使用的體驗(yàn)來講是非常糟糕的。

因?yàn)槟莻€(gè)時(shí)候缺少了移動(dòng)互聯(lián)網(wǎng),缺少連接,缺少數(shù)據(jù)的迭代,缺少更智能的計(jì)算平臺(tái),也沒有辦法把非常好的一套算法優(yōu)化在嵌入式里面跑起來,這就使得想去突破變得異常難。

在2010年之后,至少我們可以勇敢地講出來,從語音交互的這個(gè)點(diǎn)上,就是從交互的這一點(diǎn)上,我們現(xiàn)在已經(jīng)是領(lǐng)先全球的。而且從2010年之后,我們幾乎把每一項(xiàng)技術(shù)創(chuàng)新全都做到了世界第一。

比方說在車上可以支持離線版本的語音搜索,然后云端加嵌入式的語音邏輯,再到車內(nèi)真正解決車開到120公里/時(shí)以上、高速關(guān)窗條件還能夠支持85%以上的識(shí)別率,然后再到現(xiàn)在不用語音喚醒詞了,當(dāng)然喚醒詞我們也是世界第一。

現(xiàn)在在做基于場景的語義喚醒,這樣一些規(guī)則現(xiàn)在已經(jīng)全部是由我們配合國內(nèi)的一些自主品牌廠商的設(shè)計(jì)中心,以及一些合資和外資品牌在中國的技術(shù)研發(fā)中心共同在做,開始重新制訂標(biāo)準(zhǔn)。

因?yàn)槲覀冋J(rèn)為應(yīng)該是這樣的邏輯產(chǎn)生過程。我們遵循以用戶體驗(yàn)為中心,以安全為第一等級(jí)的要求來制訂。大概在2016年有一個(gè)報(bào)告,稱基本上在車內(nèi)很難用語音交互做完整的事情。但是現(xiàn)在我們輸出的AI UI的1.0、2.0,已經(jīng)基本可以做到用戶不看屏幕,不做一個(gè)觸屏動(dòng)作,不按一個(gè)按鍵就可以完成整個(gè)流程,包括常用的功能在內(nèi)。

我認(rèn)為這個(gè)事情已經(jīng)倒過來了,跟手機(jī)廠商的生產(chǎn)過程是一樣的。我們現(xiàn)在有了移動(dòng)互聯(lián)網(wǎng),有了更強(qiáng)大的運(yùn)算平臺(tái),有了大家習(xí)以為常的移動(dòng)互聯(lián)網(wǎng)的使用經(jīng)驗(yàn)之后,用過好東西就不想在車上用到差東西,這一步走下來就沒有問題。

另外我認(rèn)為不管什么檔次的車,都需要在車上有非常好用的以安全為主、層級(jí)比較短的扁平化為主的語音交互系統(tǒng)。這套東西我們現(xiàn)在應(yīng)該也是跑在前面。

我們一直在嘗試做無屏化,這個(gè)過程有很多的障礙。一方面是人的習(xí)慣,不愿意去對(duì)著一個(gè)冷冰冰的機(jī)器講話,它應(yīng)該有互動(dòng)。但這個(gè)互動(dòng)如果是無屏化,怎么樣讓用戶感受到這個(gè)互動(dòng)的存在呢?

第二個(gè),整個(gè)對(duì)話的場景打開之后,其實(shí)空間是立體網(wǎng)狀的,而不單是一條場景走到頭的,中間可能會(huì)跳來跳去。這個(gè)時(shí)候?qū)φZ音識(shí)別的準(zhǔn)確度和語義理解的準(zhǔn)確度、搜索的準(zhǔn)確度,以及對(duì)于用戶屬性標(biāo)簽的準(zhǔn)確程度要越來越高。

另外一點(diǎn),在車上現(xiàn)在也很難做到百分之百聯(lián)網(wǎng),我們看三五年到2020年有50%的車輛聯(lián)網(wǎng),還有50%的車聯(lián)不聯(lián)網(wǎng),如果做到無屏化的交互,這個(gè)時(shí)候就有可能要求本地的處理能力非常強(qiáng)。用戶不管你到底聯(lián)網(wǎng)不聯(lián)網(wǎng),只是希望他隨意地講,你只要響應(yīng)我一個(gè)準(zhǔn)確的,我就覺得你是好用的。

再有就是像廠商對(duì)于一些新技術(shù)的追求,這些地方的追求是需要有節(jié)奏,這種控制的節(jié)奏也是我們一直配合廠商在把握的。

在AI未來發(fā)展中必須經(jīng)歷的五大應(yīng)用場景中,我認(rèn)為智能是我們最擅長的領(lǐng)域。

一方面,去年,科大訊飛在人工智能領(lǐng)域已經(jīng)拿到了全球頂尖的實(shí)力和好的成績。第二個(gè)是科大訊飛在汽車領(lǐng)域投入了15年,一直在做從語音到語音的事情,怎么聽清,怎么講明白?,F(xiàn)在開始做圖像的理解和圖像識(shí)別,我們并不是才做,是在研究怎么往車上引入。所以現(xiàn)在,科大訊飛已經(jīng)逐步形成從語音到語音、從圖像到圖像整個(gè)交互的鏈條。

另外形容一個(gè)人的聰明先是從表達(dá)上能做到能說會(huì)道、耳聰目明。我們?cè)谶@一點(diǎn)上應(yīng)該是可以幫助每一個(gè)主機(jī)廠,把他們整個(gè)交互的邏輯重新按照人性化的方式實(shí)現(xiàn),并且形成自己核心化的東西。

  • 為你推薦
  • 公益播報(bào)
  • 公益匯
  • 進(jìn)社區(qū)

熱點(diǎn)推薦

即時(shí)新聞

武漢