手寫識(shí)別技術(shù)
騰訊研究院的手寫識(shí)別技術(shù)實(shí)際上已經(jīng)在去年很多產(chǎn)品上都得到了應(yīng)用,主要是QQ輸入法上的手寫功能,包括PC端的QQ輸入法還有幾個(gè)主要的手機(jī)平臺(tái)的QQ手機(jī)輸入法,Android和iPhone手機(jī)的QQ輸入法,F(xiàn)在識(shí)別率可以做到工整字符99%,連筆字符95%以上。為了提高輸入效率,云手寫和QQ輸入法詞庫后臺(tái)聯(lián)通,識(shí)別出來的字可以聯(lián)想,提高速度。我們還有工作馬上要做,把中文和英文連續(xù)手寫識(shí)別作為云服務(wù)提供出來。實(shí)際上中文和英文識(shí)別引擎開發(fā)完畢,將來找一個(gè)合適產(chǎn)品形態(tài)把它提供出來。
在語音識(shí)別方面從它的訓(xùn)練過程來看,首先要從訓(xùn)練語音中訓(xùn)練出學(xué)模型。解碼時(shí)候需要聲學(xué)模型、語言模型以及用戶詞典共同作用把測(cè)試語音解碼出來。這個(gè)語音模型存儲(chǔ)量很大,我們采取都是三元的文法,存儲(chǔ)量可以達(dá)到上G的規(guī)模。這樣的規(guī)模不可能是在終端來做,必須要在云端做。語音識(shí)別有一個(gè)特點(diǎn),對(duì)CPU消耗很厲害。云語音服務(wù)器一臺(tái)服務(wù)器可以處理幾個(gè)并發(fā),所以說對(duì)CPU占用很大。
騰訊研究院的QQ云語音
我們這個(gè)騰訊研究院的QQ云語音,支持中英文混輸。識(shí)別率自己做了測(cè)試,聊天常用語的單字識(shí)別率可達(dá)80%,我們針對(duì)QQ聊天應(yīng)用,訓(xùn)練的時(shí)候很多采用聊天的語調(diào),畢竟跟真實(shí)的口語語調(diào)有差別。上線之后,我們可以通過云服務(wù)可以獲取真實(shí)語調(diào),訓(xùn)練我們語音模型,可以使性能得到優(yōu)化。越來越多用戶使用我們服務(wù),包括說話說的快、說的慢的人,有口音的用戶來用,可以對(duì)我們的聲音模型有一定優(yōu)化,可以有持續(xù)性的改善。QQ云語音支持桌面端和移動(dòng)端的語音輸入,在手機(jī)的QQ輸入法上也會(huì)支持語音輸入功能。
語音識(shí)別還有其他的應(yīng)用,語音輸入、語音搜索、語音導(dǎo)航、語音命令控制等等。對(duì)模型進(jìn)行控制或者對(duì)語音識(shí)別結(jié)果針對(duì)性后處理,可以讓識(shí)別率變得更加準(zhǔn)確,使得語音識(shí)別服務(wù)變得更加得心應(yīng)手。
人臉識(shí)別
剛才介紹了云手寫和云語音,現(xiàn)在介紹人臉識(shí)別情況,人臉識(shí)別有一個(gè)技術(shù)難點(diǎn),光照、姿態(tài)、表情變化對(duì)人臉識(shí)別影響很大。我們說人臉識(shí)別是一個(gè)困難的模式識(shí)別問題。不同人之間的人臉結(jié)構(gòu)差異并不明顯,在這種情況下識(shí)別變得比較困難。另外實(shí)際應(yīng)用中往往用戶只能提供一張人臉作為識(shí)別模板,這樣為了提高人臉識(shí)別的準(zhǔn)確率,我們需要有一個(gè)很充分規(guī)模這么一個(gè)離線人臉數(shù)據(jù)庫,以便學(xué)習(xí)人臉模式的類內(nèi)變化,這個(gè)離線很難建立,成本比較高。通過人臉識(shí)別云服務(wù)恰恰就能收集到一個(gè)人在很多條件下的樣本,這樣可以使得識(shí)別算法性能隨著運(yùn)營不斷改進(jìn)。
1.人臉識(shí)別的原理框圖,基本上有三個(gè)步驟
1)離線訓(xùn)練階段,用離線人臉數(shù)據(jù)庫得到特征變換矩陣,我們可以在線登錄用戶人臉圖象,用戶給一張樣本作為它的模板,可就要會(huì)生成用戶人臉模板庫存儲(chǔ)起來。
2)實(shí)施階段我們有待測(cè)人臉圖象,我們?cè)谀0鍘熘羞M(jìn)行匹配,看看哪個(gè)相似度最大。
3)如果人臉驗(yàn)證應(yīng)用,用戶宣稱他是某一個(gè)已經(jīng)登錄過的人,一對(duì)一進(jìn)行比對(duì),超過一定分?jǐn)?shù)就可以認(rèn)為他通過人臉認(rèn)證,達(dá)不到認(rèn)為他不是這個(gè)人。
2.人臉識(shí)別在互聯(lián)網(wǎng)上的應(yīng)用 大致分為三種基本類型
1)人臉識(shí)別相似度評(píng)價(jià),比較兩張臉是像不像,有多像,打個(gè)分?jǐn)?shù)。這個(gè)多見一些趣味性應(yīng)用。比如用戶上傳一張照片,看看他跟哪個(gè)明星長的比較像,或者是夫妻兩個(gè)照片都有了,看一下夫妻像指數(shù)有多高。這是大家熟悉Facebook應(yīng)用,自動(dòng)魏上傳圖片中人臉加朋友標(biāo)簽,這是在他的朋友圈子里進(jìn)行人臉識(shí)別。只要他之前標(biāo)定過他的朋友,當(dāng)這個(gè)朋友再次上傳這個(gè)圖片中有他朋友的時(shí)候,通過人臉識(shí)別就能自動(dòng)把這個(gè)朋友標(biāo)定出來。
2)一種應(yīng)用像谷歌Picasa相冊(cè)這種應(yīng)用。主要是將大量圖片按照人臉批量自動(dòng)整理,按照人臉之間相似度,一開始是對(duì)批量人臉進(jìn)行聚類,經(jīng)過用戶確認(rèn)可以把這些聚類中心合并起來,把錯(cuò)誤人臉去掉,很快圖象可以按照人頭來整理起來,可以自動(dòng)進(jìn)行索引。
3)我們現(xiàn)在看一下我們現(xiàn)在兩個(gè)Demo,一個(gè)是人臉認(rèn)證Demo,一個(gè)是人臉識(shí)別的Demo。這個(gè)人臉認(rèn)證Demo,用戶要選中他自己,連續(xù)三幀檢測(cè)都是自己,他就接受了。如果選張別人,肯定是通不過的。識(shí)別Demo大家可以看一線,人臉庫里面存了三千多用戶圖片,其中只有一張正面人臉作為圖象。我們拿一些測(cè)試人臉測(cè)試,測(cè)試圖片質(zhì)量不錯(cuò)的情況下測(cè)試還是不錯(cuò)的。
除了剛才介紹手寫、語音識(shí)別還有人臉識(shí)別的云服務(wù)之外,我們騰訊研究院會(huì)進(jìn)一步擴(kuò)展模式識(shí)別的應(yīng)用范圍。一般的圖象識(shí)別,谷歌的Goggles應(yīng)用,拿手機(jī)攝象頭拍攝一個(gè)書的平面,拍攝一個(gè)商標(biāo),一個(gè)景色,可以在云端找到匹配這個(gè)圖片,這也是我們將來想發(fā)展的方向。
今天我想介紹的內(nèi)容主要就是這些,介紹性的內(nèi)容多了一些,沒有太深入技術(shù)問題,歡迎大家提問,如果回頭大家有什么技術(shù)方面問題可以發(fā)郵件給我。
謝謝大家!
提問:將來有沒有打算把那個(gè)服務(wù)作成一開放平臺(tái),其他的人也可以來調(diào)用你這個(gè)。
劉海龍:這個(gè)問題提的不錯(cuò),工作只能一步一步來做,目前的設(shè)想首先服務(wù)于騰訊公司內(nèi)部一些產(chǎn)品。因?yàn)槲覀儸F(xiàn)在是剛剛起步,內(nèi)部產(chǎn)品還有很多業(yè)務(wù)有很多,先把這塊做好,然后再考慮更向外開放或者是更大的一些事情,還是一步一步來。
提問:如何保證數(shù)據(jù)的安全性?
劉海龍:目前為止我們還沒有看到非常完美的解決方案,只能是說一個(gè)是在數(shù)據(jù)傳輸過程中要保證它的安全性,要加密。另外在你的云端,這個(gè)云服務(wù)的提供者你要有制度上建設(shè),要有制度來保證數(shù)據(jù)安全性。
提問:剛才聽到講座里面說我們語音識(shí)別這塊一臺(tái)服務(wù)器同時(shí)并發(fā)幾個(gè)鏈接,像我們騰訊這么大用戶量這個(gè)有沒有可執(zhí)行性?如果部署起來的話。
劉海龍:來用服務(wù)的人到底有多少,另外云服務(wù)的特點(diǎn)要增加部署服務(wù)器其實(shí)很快的,你可以按需擴(kuò)展你的計(jì)算資源,可以相應(yīng)來擴(kuò)展。
提問:谷歌本身有語音識(shí)別,放在用戶端,他識(shí)別性能沒有這么好。
劉海龍:對(duì),識(shí)別性能差一些,語音模型不可能用的很復(fù)雜。
主持人劉江:之前有一期講的跟這個(gè)很相關(guān)的話題,就是腦電波就是神念科技,有一個(gè)副總演示,你帶著他的東西,你可以指揮那個(gè)球,用腦電波指揮那個(gè)球,怎么過關(guān)之類的。很經(jīng)典,日本有一個(gè)產(chǎn)品就是兔耳朵,小姑娘帶的那個(gè),看到帥哥,耳朵就豎起來了。
提問:我想問一下路香菊、劉海龍,這塊做特征提取主要用什么東西做的?比如剛才說的臉部識(shí)別,情緒稍微有一點(diǎn)變化,提取出來的特征會(huì)有變化嗎?
推薦閱讀
第一財(cái)經(jīng)日?qǐng)?bào):《桃姐》乍一看很像紀(jì)錄片,余力為的攝影也很樸實(shí)無華。采用這樣的方式,是不是為了凸顯情感的真實(shí)性? 許鞍華:主要是因?yàn)榭梢耘牡煤芸,而且便于抓拍到養(yǎng)老院當(dāng)時(shí)的狀況和其他老人的反應(yīng)。劇組拍攝的>>>詳細(xì)閱讀
本文標(biāo)題:騰訊研究院劉海龍:當(dāng)模式識(shí)別遇上云計(jì)算
地址:http://www.sdlzkt.com/a/kandian/20120305/36909.html