現(xiàn)在講多模態(tài)技術(shù)最難的地方就是各個(gè)企業(yè)之間,基本上都在自己熟系的領(lǐng)域去深耕,對(duì)相互之間的技術(shù)結(jié)合基本上都不是很熟系,這就困擾多模態(tài)技術(shù)之間的結(jié)合。
真相!中國(guó)智能機(jī)器人到底發(fā)展到什么地步了?
從這次研討會(huì)上反饋的信息來(lái)看,機(jī)器人企業(yè)期待上游的企業(yè),如科大訊飛能夠提供再進(jìn)一步的技術(shù)方案,或者有能夠直接提供多模態(tài)交互技術(shù)的產(chǎn)品,而上游的技術(shù)企業(yè),則認(rèn)為這是終端機(jī)器人產(chǎn)品集成商應(yīng)做的事情。
這就導(dǎo)致我們想要的多模態(tài)技術(shù)交互都是有缺陷的。
在技術(shù)上來(lái)說(shuō),智能語(yǔ)音、機(jī)器視覺、移動(dòng)底盤在使用的過程中都還存在問題,這讓很多機(jī)器人企業(yè)非常的折騰。
從移動(dòng)底盤上來(lái)說(shuō),深圳市步科電氣有限公司(簡(jiǎn)稱:步科)營(yíng)銷總監(jiān)溫琦說(shuō):“移動(dòng)底盤產(chǎn)品是成熟的,可以應(yīng)用到各種機(jī)器人身上,但是目前確沒有成熟的SLAM技術(shù)方案?!?/p>
還比如機(jī)器視覺,很多廠家都說(shuō),機(jī)器人植入深度視覺后,在行走的過程中,可以躲避障礙物,但是應(yīng)用到場(chǎng)景里,還是存在很多的問題,比如機(jī)器人前面多幾個(gè)人行走,就會(huì)導(dǎo)致機(jī)器人行走速度會(huì)變得很慢,或者直接不靈了。
最后是智能語(yǔ)音,對(duì)很多機(jī)器人企業(yè)而言,目前是最頭疼的問題,因?yàn)楹芏嗾Z(yǔ)音企業(yè)都說(shuō)識(shí)別準(zhǔn)確率高達(dá)90%以上,但是從機(jī)器人企業(yè)的反饋來(lái)看,應(yīng)用到場(chǎng)景里體驗(yàn)是不好的。
其實(shí)這里有一個(gè)問題,智能語(yǔ)音包括語(yǔ)音與語(yǔ)義,如果語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到90%,語(yǔ)義識(shí)別準(zhǔn)確率也達(dá)到90%,其實(shí)這兩者是相乘的,一結(jié)合可能就只有81%的識(shí)別準(zhǔn)確率。
而且目前我們所涉及的語(yǔ)義還只是文本,對(duì)于視頻、圖片、運(yùn)動(dòng)數(shù)據(jù)等更多元的素材采集,基本上非常困難。
深圳市狗尾草智能科技有限公司(簡(jiǎn)稱:狗尾草)首席科學(xué)家張博說(shuō):“從多模態(tài)交互的角度去看,在目前的智能語(yǔ)音技術(shù)上,再去擴(kuò)展視頻、圖片、運(yùn)動(dòng)數(shù)據(jù)等素材采集,我們只能通過語(yǔ)義處理語(yǔ)義,視頻處理視頻等方式去處理,如果要結(jié)合起來(lái)是非常困難的。”
先不說(shuō)把圖片、視頻、文本等結(jié)合,就算以文本的角度去講也很難,小I機(jī)器人售前顧問甘楚輝說(shuō):“小I的數(shù)據(jù)庫(kù)里,各個(gè)領(lǐng)域的知識(shí)庫(kù)是分開,如果要結(jié)合在一起,占用的資源會(huì)變得非常大,對(duì)整體的性能影響也會(huì)很大,就算要結(jié)合也只能是分開穿線。”
所以在多模態(tài)交互的探索上,我們基本上還處在剛開始的階段。
目前我們先不深入的去探究,站在我們現(xiàn)有的產(chǎn)品集成上,我們可以做到怎樣的多模態(tài)交互。
把智能語(yǔ)音、移動(dòng)底盤、機(jī)器視覺結(jié)合,目前已有落地的機(jī)器人產(chǎn)品。
比如深圳市銳曼智能技術(shù)有限公司名下的小曼機(jī)器人,當(dāng)我們呼叫小曼機(jī)器人時(shí),它是可以定位我們的聲源,甚至還可以走到我們的面前。
科大訊飛股份有限公司(簡(jiǎn)稱:科大訊飛)商務(wù)總監(jiān)廖凱說(shuō):“這三者結(jié)合的多模態(tài)交互,在生活中可以做到,我在與機(jī)器人一邊走路,一邊講話的時(shí)候,它是可以進(jìn)行人臉的捕捉,移動(dòng)的追蹤,所以它會(huì)在移動(dòng)時(shí)面朝著你,這會(huì)讓你感覺非常好?!?/p>
就從這三個(gè)技術(shù)的成熟度來(lái)講,在這次研討會(huì)上,很多嘉賓認(rèn)為,以目前的技術(shù)水平,能夠?qū)崿F(xiàn)產(chǎn)品盈利的也只能是玩具級(jí)的產(chǎn)品,如果是商用級(jí)的產(chǎn)品,我們還需要花很長(zhǎng)的時(shí)間做研發(fā)投入。
過去我們追捧機(jī)器人+資本的模式,通過資本的進(jìn)入去進(jìn)行產(chǎn)品技術(shù)的研發(fā),但是這條路從去年以來(lái)已經(jīng)變得越來(lái)越窄。
如果還只是拿上游企業(yè)的產(chǎn)品,比如:智能語(yǔ)音、移動(dòng)底盤、機(jī)器視覺,再進(jìn)行定制化場(chǎng)景應(yīng)用的機(jī)器人,估計(jì)已經(jīng)很難再拿到資本。
因?yàn)楹芏嗤顿Y人已經(jīng)知道內(nèi)部的事情,而且也知道內(nèi)部細(xì)節(jié)的難度在哪里?尤其是融合的階段,什么技術(shù)處于可商業(yè)化,什么技術(shù)還達(dá)不到商業(yè)化的階段,所以對(duì)機(jī)器人創(chuàng)業(yè)者而來(lái),我們自己也需要理性化,做一些深思熟慮的判斷。
從營(yíng)銷策略的角度去分析,特別是對(duì)于玩具級(jí)別的機(jī)器人產(chǎn)品,我們不要過分讓用戶對(duì)產(chǎn)品有太高的期望,廖凱說(shuō):“我之前有一個(gè)客戶是做香味盒,在這個(gè)香味盒上植入了語(yǔ)音交互功能,坦白說(shuō),他們二次開發(fā)的語(yǔ)音交互體驗(yàn)做的并不好,但對(duì)用戶而言,就算體驗(yàn)不好,但是它還是可以提供香味需求?!?/p>
往往我們能夠抓住跟智能無(wú)關(guān)的點(diǎn),就會(huì)有用戶粘性,其實(shí)用戶會(huì)給你一個(gè)容忍度,給你升級(jí)迭代的機(jī)會(huì),但是我們不能給用戶太高的期望。
在商業(yè)級(jí)的服務(wù)機(jī)器人里也有成功的例子,溫琦說(shuō):“美國(guó)企業(yè)做出來(lái)的很多機(jī)器人是在商場(chǎng)里做分揀,它不是服務(wù)于人,或與人做交互,而是為商場(chǎng)管理貨物提高效率?!?來(lái)源:1號(hào)機(jī)器人網(wǎng))