谷歌人工智能唇讀術完虐人類,僅憑5千小時電視節目!人類古老的技藝再次淪陷

2016年11月22日星期二

編者注:人工智能搶人類飯碗的趨勢越來越明顯了,最近,它又瞄準了一個新行業,而且一出手就比該行業專家們做的好。

主角還是 AI 大咖谷歌DeepMind,這次他們與英國牛津大學合作,通過機器學習大量的 BBC 節目,來學習一項全新的技能:唇讀術。可怕的是,人工智能不僅學會了,而且讓唇讀專家們自愧不如。

唇讀是人類一項獨特的技藝,也是非常困難的一件事,它對於語言語境和知識理解的要求並不亞於視覺上的線索,然而 AI 又做到了。

AI 系統的學習對象是近 5000 小時的 BBC 各類節目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來約有 11.8 萬句話。

谷歌DeepMind 和牛津大學的聯合研究團隊使用了 2010 年 1 月至 2015 年 12 月間的電視節目素材對 AI 系統進行訓練,然後使用 2016 年 3 月- 9 月間播出的節目進行 AI 性能測試。

BBC節目數據庫。從左至右分別為:頻道、節目名稱、小時數、句數

通過觀察節目中說話者的唇形,AI 系統可以準確解讀出文字,比如下面這些比較“拗口”的句子:“我們知道也將有上百位記者會出席”(We know there will be hundreds of journalists here as well),以及“根據國家統計局的最新統計數據”(According to thelatest figures from the Office of National Statistics)。

DT 君試讀了以上英文語句,發現唇形變化其實並不明顯,而且電視節目中的語速是非常快的,難度可想而知。

BBC節目數據庫中無字幕原片

由谷歌DeepMind AI系統通過唇讀同步的字幕

AI能力再升級

測試結果的具體數據可能更能說明問題:在 2016 年 3 月-9 月的節目庫中隨機選取的 200 個說話場景唇讀對比測試中,人類專家的完全準確率為12.4%,而AI的完全準確率為46.8% 。

而且 AI 所犯錯誤中有很多其實無關緊要,比如在複數後面漏掉一個“s”之類。不過哪怕是這樣,AI 還是完虐了人類唇讀專家。

人工智能業內專家稱,“這絕對是建構全自動唇讀系統的第一步!現有的各類龐大數據庫完全可以支持深度學習技術的發展。”

上方彩色圖片為BBC節目數據庫原始靜態圖片,下方黑白圖片為兩個不同的人說出“afternoon”(下午)這個單詞時的唇型

兩周前,牛津大學曾開發了一個類似的深度學習系統LipNet,這套系統當時就已93.4%對52.3%大比分擊敗了人類唇讀專家,但還不太說明問題,畢竟,LipNet和人類的競賽是基於GRID語料庫,這個數據庫只包含51個特殊詞彙 。

而DeepMind這次選取的BBC節目數據庫卻包含了驚人的17500個特殊詞彙 ,對人工智能來說,這無疑是艱巨的挑戰。

GRID語料庫中的音視頻數據相對簡單得多

除此之外,BBC節目數據庫中包含了人類在正常說話時使用的各種語法,而GRID語料庫的33000個句子都採用相同表達,這使得句子很容易被預測,難度也相對低得多。

DeepMind和牛津大學的研究團隊將開放BBC節目數據庫供同行使用。來自LipNet的 Yannis Assael 表示將率先使用這一數據庫來訓練自己的唇讀AI系統。

把嘴唇排列起來

如果要通過 BBC 節目這一類的視頻數據庫來訓練自動唇讀系統,必須要讓機器預先學習每一個視頻片段。可問題是,節目中的視頻流與音頻流往往不是完全同步的 ,甚至會出現多達1秒左右的時間差。

簡單地說,這會讓機器徹底蒙圈,因為視頻里出現的唇形沒辦法和音頻完美貼合,機器就無法將某一特定唇形和其發音對號入座 。這樣看來,AI 學習唇讀術好像是不可能的。

解決這一問題的方案是讓計算機先學會那些完全同步的音視頻流,掌握髮音與唇形間的關聯,然後自行推斷音視頻流中那些畫面是不同步的,再進行自動修正 。DeepMind的 AI 系統自動處理的 5000 小時音視頻流就是採用的這種方法。如果完全使用人工來進行同步校準,工作量簡直大到不可想象。

DeepMind採用的“看、聽、嘗試、拼寫”架構。首先解碼出一個特徵yi及兩個向量,再通過向量去定位對應的輸入音頻視頻流序列

好了,問題來了,AI 唇讀本事這麼大,到底會被用來幹嘛?DT 君腦子裡首先出現的畫面就是:“天網”默默監視着全人類的談話,只要看看嘴型就知道你在說什麼 ……

雖然細思恐極,但專家說了,說到監聽這事兒,與其如此大動干戈,還不如超遠程監聽麥克風來得簡單直接效果好。所以,目前來看,沒什麼好害怕的。

相比之下,AI 唇讀技術更可能的應用方向是消費類電子設備 ,可以讓設備知道用戶想要說什麼,哪怕不發出聲音。“動動嘴皮子”這種事兒搞不好會成為未來人機交互的常態。

來自牛津大學 LipNet 研究團隊的Yannis Assael對此技術的評價是:“我們相信AI唇讀技術是一種非常實用的輔助性技術,比如更智能的助聽器、不便出聲的公共場合(Siri再也不用聽見你的聲音了),以及在嘈雜環境下精準的語音識別等。”

下一篇
奸雄曹操底下的五大謀士家，賈詡第三，第一堪稱鬼才