&

【每日科技網(wǎng)】

　　北京時間 1 月 25 日凌晨2點,DeepMind和暴雪娛樂舉辦了一場網(wǎng)絡直播,第一次公布了其錄制的 AI 在《星際爭霸 2》中與2位職業(yè)選手的比賽過程:AlphaStar5:0 戰(zhàn)勝職業(yè)選手TLO ,5:0戰(zhàn)勝 2018 年 WSC 奧斯汀站亞軍MaNa 。與兩位人類對手的比賽相隔約兩周,AI 自學成才,經(jīng)歷了從與 TLO 對戰(zhàn)時的菜鳥級別,進化到完美操作的過程,尤其是與 MaNa 的對戰(zhàn),已經(jīng)初步顯示了可以超越人類極限的能力。

　　這次的演示也是 DeepMind 的星際爭霸 2 AI AlphaStar的公開亮相。除了此前比賽錄像的展示外,AlphaStar 還和 MaNa 現(xiàn)場來了一局,不過,這局AlphaStar 輸給了人類選手 MaNa 。

　　今天,我們從技術角度聊聊:星際爭霸2人機對戰(zhàn)背后,AI獲勝的意義與原因。

　　「智齒AI研究院」吳科許思佳蘇蘇作者

　　AI為什么總是挑戰(zhàn)專業(yè)游戲玩家?

　　關注AI、游戲領域的人或多或少會感覺到,AI似乎總是盯著游戲。從國際象棋到圍棋、甚至到現(xiàn)在星際爭霸2,AI對游戲的挑戰(zhàn)屢見不鮮。

　　這是為什么?我們首先來想想:

　　1. 國際象棋挑戰(zhàn)

　　IBM深藍(DeepBlue)超級計算機1997年5月12日擊敗卡斯帕羅夫,從那至今,計算機程序已陸續(xù)擊敗不少世界國際象棋選手。

　　最早時候,計算機通過算力完成對弈,通俗理解便是計算機的“暴力搜索”。一些科學機構認為,那時候的計算機還算不上智能化,由于國際象棋的落子與棋盤本身的搜索空間都較少,因此對AI的算法要求并不高。這也就是為什么1997年深藍陸續(xù)擊敗了不少世界象棋選手,卻并未引起轟動的原因。

　　后來,谷歌旗下的DeepMind(人工智能公司)的AlphaZero,它通過強化學習算法自我對弈。而當AI開始進行自我對弈的強化學習后,才真正開始體現(xiàn)出智能化能力,也預示著AI在某些方面確實較人更為厲害,甚至于說是超神。

　　2. 圍棋大戰(zhàn)挑戰(zhàn)

　　圍棋具有比國際象棋搜索空間更大、不可控因素更多的特點,但這也恰恰印證了AI在搜索、計算、推理、記憶、學習等方面的能力。在這一階段,AI加入了更的算法——深度學習和強化學習,AI通過與自己博弈,把在圍棋中所有的可能進行窮盡試探,從而摸索出多種“套路”,再將這些“套路”應用到與人類的對弈當中,從而讓陷入固有模式的人類選手“摸不著頭腦”,產(chǎn)生“AI不按照套路出牌”的感覺,最后打敗人類。

　　但是,這并不意味著AI目前已經(jīng)“超神”。很多科學家和機構認為,就圍棋層面來說,AI確實打敗了人類,卻也暴露出了更嚴峻的問題,即圍棋是信息完全透明的狀態(tài)下,較為簡單地完成任務。然而,在真正的應用場景中乃至商業(yè)領域,很多場景并不透明,所以AI需要更大的突破,才算真正的智能。

　　星際爭霸2此次挑戰(zhàn)賽,AI進階的一小步

　　如何才能實現(xiàn)更新的進展及突破?顯然,即時戰(zhàn)略類游戲更符合AI的“胃口”,它具有信息不透明的特點,AI需要和人類選手一樣,探索地圖和了解對手現(xiàn)狀才能獲取更多信息。星際爭霸2的不可預測性遠大于圍棋,玩家可以在同一時間會有300種基本動作可選擇,即使在一個84x84像素的屏幕中,也會產(chǎn)生大約1億個不同的動作。

　　面對如此挑戰(zhàn),在對AlphaStar進行研發(fā)的過程中,谷歌采用TPU v3 構建了一個高度可擴展的分布式訓練系統(tǒng),該系統(tǒng)支持很多智能體從星際爭霸2的數(shù)千個并行示例中學習。因此,它比一般的GPU更強、計算能力更快,并且運用了強化學習的技術算法。AlphaStar此次對戰(zhàn)前,得到了星際爭霸2團隊開放的65000場比賽數(shù)據(jù)的緩存以及50萬次匿名游戲回放和其他研究成果。最終,才使得AlphaStar在算力、算法、數(shù)據(jù)等多維技術融合下,發(fā)覺任務狀態(tài)窮盡所有可能,完成多種套路的自我學習。

　　AlphaStar通過多重技術,最終在星際爭霸2中具備了全局優(yōu)勢判斷的能力,它判斷多維任務、狀態(tài)、事件后作出的決策,從而實現(xiàn)了勝利。這就很像我們?nèi)祟愒谏虡I(yè)中的長序列決策,即在各種場景、能力、匹配度、針對性等條件中,作出解。

　　我們在做智能客服領域AI時的會話管理模塊也與之非常相似,機器人在通過一系列的存儲、匹配、推理、策略等諸多維度判斷,最終作出與用戶的交互決策,從而輸出用戶需要得到的內(nèi)容。

　　回到本次比賽,AI開始在即時策略類游戲中取得了勝利,充分說明了人類在人工智能領域又向前邁進了一小步。為什么只能算一小步,下面會繼續(xù)說。但我們?nèi)タ催@小小的一步,也同樣充滿了各種底層技術的集成與發(fā)展的成績。

　　AI的神操作,展現(xiàn)了哪些優(yōu)勢?

　　實際上,AI的優(yōu)勢主要體現(xiàn)在幾大方面,如算力、策略能力、學習能力、記憶能力等。而這些能力優(yōu)勢,依靠的不僅僅是深度學習,也包括諸多技術能力的集合和AI背后那些大量數(shù)據(jù)、算法的支撐。

　　1. 計算能力

　　計算能力顧名思義,是對AI層的算力支撐,它可以使AI計算能力更強、速度更快�，F(xiàn)階段大部分AI產(chǎn)品應用的硬件算力支持使用的都是GPU,而谷歌的AlphaStar使用的則是算力更強的TPU,這使得它的計算速度和計算能力都在普遍的AI之上,優(yōu)勢明顯。

　　2. 策略能力

　　在星際爭霸2的游戲當中,AlphaStar表現(xiàn)出了較為強大策略能力。它通過深度學習與強化學習的相結(jié)合,學習和實踐了大部分人類的打法套路,最終運用出其不意、卻也經(jīng)過千方百算的方式完成了戰(zhàn)略判斷和決策,使自己的戰(zhàn)略局勢始終保持地位。AlphaStar雖然在后面也表現(xiàn)出了固有的一些模式漏洞,但不得不說,AI的策略能力更強。

　　3. 記憶能力

　　早在此前的棋類游戲?qū)︕牡倪^程中,AI就表現(xiàn)出出色的記憶能力。在整個比賽過程中,人類選手很難在賽程中記得前面發(fā)生的所有步驟和畫面,包括自己與對手的。而AI不一樣,它可以充分掌握整個賽程中的所有過往事物、人物、任務等多種條件,以及它們之間的關系和所產(chǎn)生的影響,并能夠依據(jù)記憶,推理出更出奇的招數(shù)。因此,運用“運籌帷幄之中,決勝千里之外”這句話來形容AlphaStar在星際爭霸2中的表現(xiàn)并不過分。

　　4. 學習能力

　　AlphaStar僅僅運用了14天,就完成了人類需要200年才能完成的對弈次數(shù),并從這種對弈中獲取了N種戰(zhàn)略經(jīng)驗,且將該經(jīng)驗運用到了與人類的對弈模式當中,并取得了不錯的對戰(zhàn)結(jié)果,這也充分展現(xiàn)了AI的學習能力更強、速度更快。

　　距離“自我成長”,AI還有哪些路要走?

　　我們并沒有用“自我學習”這種詞來形容AI的成長,而是用“自我成長”來形容它。原因在于AI的發(fā)展不僅僅是自我學習的維度,而是更聚焦在AI自我成長層面。在這一層面,AI將自己完成經(jīng)驗積累、學習、進階,甚至無需更多人類干預即可完成獨立的多領域任務計算、執(zhí)行、輸出。

　　但是,AI要走的路還有很長,它缺陷是在某一專屬領域很強,然而可拓展性、復制性弱。類比一個簡單場景:撲克與麻將的玩法與技巧相近,對于這個結(jié)論的判斷人類可以輕而易舉地達到,因此,人類可以輕松地將玩打撲克的能力與經(jīng)驗遷移到玩麻將中。

　　然而,AI不能。AI很難實現(xiàn)能力與經(jīng)驗的橫向遷移,因此,垂直某一領域的AI被安排至其他領域時,需要重新學習該領域知識。人類很容易實現(xiàn)能力和經(jīng)驗的橫向遷移,然而AI卻不能。這是人工智能領域中很難跨越的瓶頸,它的通用性需要進一步研究。

　　這就是為什么我們認為此次星際爭霸2的人機對戰(zhàn),AI只能算在智能化道路上邁出一小步的其中一個原因。

　　另外一個原因,1月25日的人機對戰(zhàn)中,AlphaStar戰(zhàn)勝的其實還不是的選手。因此,不少人對它的實力還抱有遲疑態(tài)度。如果AI要證明它在智能化程度上已經(jīng)取得了質(zhì)的突破,還必須要通過更嚴峻、的比賽。

　　萬眾矚目,AlphaStar將戰(zhàn)世界第一

　　是的!AlphaStar即將再次驗證自己的能力!

　　消息:大約20天之后,也就是2月15日,AlphaStar將挑戰(zhàn)WCS星際爭霸2全球總Serral,后者代表著目前職業(yè)電子競技賽(星際爭霸2項目)的最水平。

　　(2月15日,AlphaStar將挑戰(zhàn)星際爭霸2全球總Serral)

　　如果AI能在比賽中大比分強勢獲勝,或許就可以讓所有人信服,發(fā)展到今天的AI在智能化道路上已經(jīng)實現(xiàn)了大步邁進。

　　AlphaStar與Serral的對戰(zhàn),孰勝孰負,令人期待!

　　賽事背后的AI能力分析,我們下次繼續(xù)聊。行文倉促,不周全之處也歡迎共同探討。

　　智齒AI研究院介紹

　　智齒AI研究院致力于深入研究人工智能前沿技術,并使其賦能到客服領域多場景中,幫助企業(yè)完成低成本、高效率、優(yōu)品質(zhì)的智能客戶服務。智齒AI研究院聚焦于智能客服的AI會話管理、深度學習、口語語義理解等相關方向,目前智齒AI研究院所研究技術均已應用于智齒科技旗下產(chǎn)品線,如智能客服機器人的單輪、多輪會話,智能質(zhì)檢、知識庫冷啟動等場景,在企業(yè)中的服務、營銷、服務管理等具體業(yè)務中,起到了至關重要的作用。

　　智齒AI研究院院團隊:

　　吳科

　　團隊首席科學家;

　　原阿里巴巴搜索研發(fā)專家;

　　雅虎中國新聞搜索技術負責人;

　　曾獲微軟亞洲研究院明日之星稱號;

　　曾先后師從微軟研究院人工智能部門研究經(jīng)理高劍峰,美國UIC特聘教授,清華大學數(shù)據(jù)科學研究院院長俞士綸(Philip S. Yu);擁有深度學習譯著《人工智能中的深度結(jié)構學習》。

　　團隊核心成員均擁有10年以上人工智能研究、數(shù)據(jù)分析、模型調(diào)優(yōu)等經(jīng)驗;

　　其他成員:

　　研究院中人工智能與大數(shù)據(jù)團隊成員均來自于阿里巴巴/雅虎/騰訊/新浪/美團/小i機器人等國內(nèi)外知名的互聯(lián)網(wǎng)巨頭的專家。

　　研究院團隊成員曾參加過眾多人工智能相關比賽并均獲得前5%的成績,包括NTCIR-12短文本對話比賽;鳳凰金融量化投資比賽;阿里支付風險比賽;Kaggle的House Prices:Advanced Regression Techniques比賽,研究團隊畢業(yè)于謝菲爾德大學/北京大學/清華大學/北京郵電大學/南京大學等高等院校的博士/碩士;

　　團隊核心成員均擁有10年以上人工智能研究、數(shù)據(jù)分析、模型調(diào)優(yōu)等經(jīng)驗;

　　公司擁有軟件著作權及專利共計十余件,團隊成員享有專利并發(fā)表論文二十余份。

免責聲明：本文僅代表作者個人觀點，與每日科技網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

本網(wǎng)站有部分內(nèi)容均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責，若因作品內(nèi)容、知識產(chǎn)權、版權和其他問題，請及時提供相關證明等材料并與我們聯(lián)系，本網(wǎng)站將在規(guī)定時間內(nèi)給予刪除等相關處理.

精彩推薦