在最近結束的2017年度AI星際爭霸競賽上,F(xiàn)acebook做出了一款人工智能“CherryPi”,參與到這項旨在讓各路AI技術在星際爭霸游戲中同場競技的賽事之中。
但遺憾的是,F(xiàn)acebook僅僅獲得賽事的第六名,最直接的原因,在于Facebook堅持在CherryPi的研發(fā)中主要使用機器學習技術,而非像其他大多數(shù)參與者那樣使用純粹的預設編碼腳本。預設編碼腳本即通過人工方式預編程了非常復雜的游戲策略腳本,讓程序根據(jù)腳本按圖索驥機械式執(zhí)行游戲。面對這些實際上并不能稱為人工智能的對手,F(xiàn)acebook自家主要基于AI技術的CherryPi基本處于劣勢,最終僅能獲得第六名。隨便提一下今年這項賽事的獲勝者是一名對星際爭霸游戲本身有深刻理解的業(yè)余人士所編制的腳本機器人。當然Facebook的失敗并不意外,因為目前要純粹靠人工智能去挑戰(zhàn)攜帶了大量人類游戲先驗知識的腳本機器人,本身就是一場不對等的較量。
如果說Facebook的人工智能技術雖然最終未能取得好成績,但尚且能和人類精心編制的腳本機器人一戰(zhàn)的話,那發(fā)明了AlphaGo的DeepMind目前則被星際爭霸2徹底玩壞了。
此前,DeepMind和星際爭霸系列制作公司暴雪聯(lián)合推出了星際爭霸2的機器學習平臺sc2le,DeepMind借此希望在繼AlphaGo后在星際爭霸2上繼續(xù)挑戰(zhàn)人類,但令人失望的是,目前DeepMind在星際爭霸2上進展緩慢。在今年7月底,DeepMind發(fā)表了一篇論文《StarCraft II: A New Challenge for Reinforcement Learning》系統(tǒng)闡述了他們在星際爭霸2中的進展,在論文中DeepMind承認了目前的深度學習與增強學習框架在星際爭霸2中并無任何理想的結果。
在上面難度相當于Atari小游戲的迷你任務中,DeepMind的人工智能的表現(xiàn)才勉強達到合格線。下圖是DeepMind在論文中總結的任務得分數(shù)據(jù),在尋找并消滅小狗和消滅蟑螂游戲中AI接近、超越了普通人類玩家(DeepMind 自家工作人員),在尋路上接近了人類高手。
然而,上述7個迷你游戲相對于星際爭霸2的全局游戲相差懸殊,DeepMind通過迷你游戲的設計將星際爭霸2人工智能試驗降低到Atari小游戲級別的難度,并不意味著人工智能在星際爭霸2這款類似人類現(xiàn)實世界對抗/戰(zhàn)爭簡化模擬的游戲上有太多顯著的突破。而究其原因,在于星際爭霸2的決策空間巨大,涉及了在收集資源、建設建筑、訓練部隊、局部戰(zhàn)術等方面的海量決策,其決策空間遠高于只有落子一個動作的圍棋。另外更要命的是,RTS游戲由于進程較長,其策略的回報(reward)趨向長期,即意味著難以定義類似于Atari游戲中Agent非常明確的回報,這使得DeepMind在Atari游戲中屢試不爽的Reinforcement Learning變得難以湊效。
于是DeepMind似乎希望后續(xù)把研究回歸到傳統(tǒng)的監(jiān)督學習方向,借助海量的星際爭霸2人類玩家對局replay數(shù)據(jù)去優(yōu)化學習的效果。在論文中通過replay增強學習后,Agent在采礦和造兵上等任務上相比此前自學有了顯著的提升。
之所以說了這么多AI與星際爭霸2的事情,是因為從中我們可以看到一個關鍵性的現(xiàn)象:在類似于星際爭霸2這種復雜任務(決策空間巨大)之中,在計算機視覺、機器翻譯、語音識別等領域取得了巨大成功的主流深度學習方法,事實上難以取得太多的成果,甚至連DeepMind也承認,在星際爭霸2的嘗試中他們遇到的困難遠遠高于此前的估計。而這是因為,當前的主流深度學習方法并不完美,其一切都是建立在海量的訓練數(shù)據(jù)基礎上。
算法不夠,數(shù)據(jù)來湊
眾所周知,目前深度學習在人工智能中所取得的成功,實際上建立在三大驅動因素上:算法、數(shù)據(jù)和算力。首先主流的深度學習算法近年來變化越來越少,同時深度網(wǎng)絡的架構本身似乎對于效果的產(chǎn)出正在減弱,而真正讓主流深度學習方法在計算機視覺、機器翻譯、語音識別等領域取得了巨大成功的關鍵驅動力是數(shù)據(jù)。深度學習區(qū)別于傳統(tǒng)機器學習方法的最大特征,是深度學習可以使用海量的數(shù)據(jù)去提升自身的表現(xiàn)(Performance),這可以用一幅經(jīng)典的圖表去展示。
傳統(tǒng)的機器學習算法往往在數(shù)據(jù)量超過一定的閾值后,其表現(xiàn)就難以繼續(xù)隨著訓練數(shù)據(jù)量而提升,更多的數(shù)據(jù)輸入僅僅是浪費;而大型的深度神經(jīng)網(wǎng)絡模型猶如一只大水桶,在裝入了更多的數(shù)據(jù)后其表現(xiàn)能夠繼續(xù)攀升,數(shù)據(jù)成為了深度學習的核心驅動力,缺乏了海量的標注數(shù)據(jù),深度學習的效果并不會比傳統(tǒng)機器學習方法有太大的改善。而最后算力是保障如此巨大的海量數(shù)據(jù)能跑在深度學習框架上的基礎能力,從某種角度理解NVIDIA的股價,是建立在數(shù)據(jù)科學界需要將海量數(shù)據(jù)注入深度神經(jīng)網(wǎng)絡并進行大量前向/方向傳播的基礎上。
甚至,我們能以以下公式描述當今的人工智能業(yè)態(tài):
當今人工智能 = 海量的標注數(shù)據(jù) + 簡單粗暴的前向/后向傳播計算
于是AI界開始了標注數(shù)據(jù)收集的軍備競賽,類似Amazon Mechanical Turk的數(shù)據(jù)標注眾包平臺不斷涌現(xiàn),而自身具備了海量數(shù)據(jù)資源的BAT或者搜狗,一夜之間在語音識別準確率上紛紛接近甚至超越了在語音識別深耕了超過十年的科大訊飛。標注數(shù)據(jù)的價值,讓大數(shù)據(jù)時代一句經(jīng)典的話——“數(shù)據(jù)即將成為新時代的電力”變得前所未有的真實。一個個如ImageNet等人工智能競賽中不斷被打破的準確率記錄,其背后是無數(shù)的人力物力被投入到高質量的標注數(shù)據(jù)之中,人工智能一定程度上,甚至可以理解為有多少人工,被投入到數(shù)據(jù)標注之中,就能有多少智能。
然而,過分依賴海量標注數(shù)據(jù)的主流深度學習方法目前面臨了越來越多的挑戰(zhàn),首先在某些標注數(shù)據(jù)難以收集或者收集代價很大的領域,讓AI應用的建立變得舉步維艱,比如在智慧醫(yī)療中,高質量的醫(yī)學影像標注數(shù)據(jù)收集門檻非常高。另外更為重要的是,海量標注數(shù)據(jù)+深度學習框架+GPU并行計算的簡單粗暴模式,在越來越多領域被證明或許沒有大家想象的那么管用,上一節(jié)DeepMind在星際爭霸2中的努力是其中一個案例。
究其原因,當下主流的深度學習方法或許并不是最優(yōu)的范式。目前有越來越多的人在反思深度學習的局限和缺陷,甚至包括了深度學習之父Geoffrey Hinton本人。大多數(shù)學習過深度學習的人基本都練習過經(jīng)典的cats vs dogs(貓狗大戰(zhàn))數(shù)據(jù)集,即從數(shù)萬張已標注的貓咪和狗狗照片,訓練神經(jīng)網(wǎng)絡判斷一張圖片的類別。但對于人類而言,我們并不需要如此大量的標注去讓我們學習一種動物是貓咪,即使對于一個從來不知道貓的幼兒,在見過幾次貓之后就能認知到這種實際上是一種區(qū)別于其他動物的物種,哪怕不知道它的語言名稱,當某一天有人告訴她這種生物叫“貓咪”后,只需要這一次“標注”,她以后就能準確分辨出每一只貓。然而對于當前深度學習來說,依賴的是大量的數(shù)據(jù)標注,這種One-shot learning是極其艱難的挑戰(zhàn)。
在這里,我們能總結性地說一句,大數(shù)據(jù)讓深度學習插上了騰飛的翅膀,但同樣也成為了深度學習飛翔到更多領域的障礙。畢竟在很多領域海量的標注數(shù)據(jù)不是那么容易獲取,甚至“標注”本身也是一項極其難定義的事情,比如在星際爭霸2中,我們應該如何更好地標注replay數(shù)據(jù),讓AI能更好地進行監(jiān)督學習?甚至進一步說,這種標注行為也許并不是一個明智的選擇,正如人類并不需要在學會玩星際爭霸之前,首先得看成千上萬場別人的replay去學習各種玩法。
人工智能的下半場
在計算機視覺、機器翻譯、語音識別等標注數(shù)據(jù)獲取相對代價低廉的領域,誠然我們看到了主流深度學習方法所取得的巨大成功,這不僅是孜孜不倦積累30多年的深度神經(jīng)網(wǎng)絡技術的集中爆發(fā),也使得深度學習引領人工智能進入了目前的熾熱狀態(tài)。但必須實事求是地說,越來越多的證據(jù)表明,當前主流深度學習方法也許并不是一項普適性技術,在更多類似星際爭霸2等任務極其復雜、數(shù)據(jù)難以標注的領域,也許我們需要的是新的方法。
深度學習之父Geoffrey Hinton最近公開號召摒棄現(xiàn)有深度學習(主要是反向傳播、CNN)范式,重新奮力向前尋找全新的道路。Hinton認為,要想讓神經(jīng)網(wǎng)絡能夠自己變得智能,即實現(xiàn)不依賴海量標注數(shù)據(jù)的“無監(jiān)督學習”,意味著需要放棄反向傳播等目前主流深度學習理念。對于在深度學習領域中,地位猶如愛因斯坦于物理學界的Hinton,要質疑甚至推翻自身花費了十幾年心血所建立的主流深度學習方法,必然是需要具備極其巨大勇氣的,我們甚至可以合理推測,Hinton老爺子心中必定是對人工智能未來有了新的vision,才能驅使他堅定地做出如此艱難的選擇。
當然,也許只有類似Hinton等極少數(shù)人才能擁有對于未來技術演進的vision,但立足于對當前業(yè)態(tài)的觀察,我們也能發(fā)現(xiàn)目前主流深度學習的勢能似乎已經(jīng)在逐漸減弱,也許這就是當前人工智能業(yè)界最大的風險所在。
海量的標注數(shù)據(jù),加上簡單粗暴的前向/后向傳播計算,也許并不是人工智能未來的全部,從今天開始,我們最好把這點記在心中。
來源:大數(shù)據(jù)觀察