DeepMind打造加強(qiáng)版AlphaGo 助力突破認(rèn)知及推理挑戰(zhàn)
谷歌母公司 Alphabet 旗下頂尖 AI 實(shí)驗(yàn)室 DeepMind 曾因其 AI 系統(tǒng) AlphaGo 擊敗頂尖人類圍棋選手、AlphaStar 贏得星際爭霸 2 而爆紅全球。本周,它又披露新的游戲 AI 系統(tǒng)。
與此前開發(fā)的游戲系統(tǒng)不同,DeepMind 的 AI 新作 Player of Games 是第一個(gè)在完全信息游戲以及不完全信息游戲中都能實(shí)現(xiàn)強(qiáng)大性能的 AI 算法。完全信息游戲如中國圍棋、象棋等棋盤游戲,不完全信息游戲如撲克等。
這是向能夠在任意環(huán)境中學(xué)習(xí)的真正通用 AI 算法邁出的重要一步。
Player of Game 在象棋、圍棋這兩種完全信息游戲和德州撲克、蘇格蘭場這兩種不完全信息游戲中與頂尖 AI 智能體對(duì)戰(zhàn)。
從實(shí)驗(yàn)結(jié)果來看,DeepMind 稱 Player of Games 在完全信息游戲中的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”水平,但如果給予相同資源,該算法的表現(xiàn)可能會(huì)明顯弱于 AlphaZero 等專用游戲算法。
在兩類不完全信息游戲中,Player of Games 均擊敗了最先進(jìn)的 AI 智能體。
深藍(lán)、AlphaGo 等 AI 系統(tǒng)僅擅長玩一種游戲
計(jì)算機(jī)程序挑戰(zhàn)人類游戲選手由來已久。
20 世紀(jì) 50 年代,IBM 科學(xué)家亞瑟?塞繆爾(Arthur L. Samuel)開發(fā)了一個(gè)跳棋程序,通過自對(duì)弈來持續(xù)改進(jìn)其功能,這項(xiàng)研究給很多人帶來啟發(fā),并普及了“機(jī)器學(xué)習(xí)”這個(gè)術(shù)語。
此后游戲 AI 系統(tǒng)一路發(fā)展。1992 年,IBM 開發(fā)的 TD-Gammon 通過自對(duì)弈在西洋雙陸棋中實(shí)現(xiàn)大師級(jí)水平;1997 年,IBM 深藍(lán) DeepBlue 在國際象棋競賽中戰(zhàn)勝當(dāng)時(shí)的世界棋王卡斯帕羅夫;2016 年,DeepMind 研發(fā)的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界圍棋冠軍李世石……
這些 AI 系統(tǒng)有一個(gè)共同之處,都是專注于一款游戲。比如塞繆爾的程序、AlphaGo 不會(huì)下國際象棋,IBM 的深藍(lán)也不會(huì)下圍棋。
隨后,AlphaGo 的繼任者 AlphaZero 做到了舉一反三。它證明了通過簡化 AlphaGo 的方法,用最少的人類知識(shí),一個(gè)單一的算法可以掌握三種不同的完全信息游戲。不過 AlphaZero 還是不會(huì)玩撲克,也不清楚能否玩好不完全信息游戲。
實(shí)現(xiàn)超級(jí)撲克 AI 的方法有很大的不同,撲克游戲依賴于博弈論的推理,來保證個(gè)人信息的有效隱藏。其他許多大型游戲 AI 的訓(xùn)練都受到了博弈論推理和搜索的啟發(fā),包括 Hanabi 紙牌游戲 AI、The Resistance 棋盤游戲 AI、Bridge 橋牌游戲 AI、AlphaStar 星際爭霸 II 游戲 AI 等。
這里的每個(gè)進(jìn)展仍然是基于一款游戲,并使用了一些特定領(lǐng)域的知識(shí)和結(jié)構(gòu)來實(shí)現(xiàn)強(qiáng)大的性能。
DeepMind 研發(fā)的 AlphaZero 等系統(tǒng)擅長國際象棋等完全信息游戲,而加拿大阿爾伯特大學(xué)研發(fā)的 DeepStack、卡耐基梅隆大學(xué)研發(fā)的 Libratus 等算法在撲克等不完全信息游戲中表現(xiàn)出色。
對(duì)此,DeepMind 研發(fā)了一種新的算法 Player of Games(PoG),它使用了較少的領(lǐng)域知識(shí),通過用自對(duì)弈(self-play)、搜索和博弈論推理來實(shí)現(xiàn)強(qiáng)大的性能。
更通用的算法 PoG:棋盤、撲克游戲都擅長
無論是解決交通擁堵問題的道路規(guī)劃,還是合同談判、與顧客溝通等互動(dòng)任務(wù),都要考慮和平衡人們的偏好,這與游戲策略非常相似。AI 系統(tǒng)可能通過協(xié)調(diào)、合作和群體或組織之間的互動(dòng)而獲益。像 Player of Games 這樣的系統(tǒng),能推斷其他人的目標(biāo)和動(dòng)機(jī),使其與他人成功合作。
要玩好完全的信息游戲,需要相當(dāng)多的預(yù)見性和計(jì)劃。玩家必須處理他們?cè)谄灞P上看到的東西,并決定他們的對(duì)手可能會(huì)做什么,同時(shí)努力實(shí)現(xiàn)最終的勝利目標(biāo)。不完全信息游戲則要求玩家考慮隱藏的信息,并思考下一步應(yīng)該如何行動(dòng)才能獲勝,包括可能的虛張聲勢或組隊(duì)對(duì)抗對(duì)手。
DeepMind 稱,Player of Games 是首個(gè)“通用且健全的搜索算法”,在完全和不完全的信息游戲中都實(shí)現(xiàn)了強(qiáng)大的性能。
Player of Games(PoG)主要由兩部分組成:
一種新的生長樹反事實(shí)遺憾最小化(GT-CFR)
一種通過游戲結(jié)果和遞歸子搜索來訓(xùn)練價(jià)值-策略網(wǎng)絡(luò)的合理自對(duì)弈。
在完全信息游戲中,AlphaZero 比 Player of Games 更強(qiáng)大,但在不完全的信息游戲中,AlphaZero 就沒那么游刃有余了。
Player of Games 有很強(qiáng)通用性,不過不是什么游戲都能玩。參與研究的 DeepMind 高級(jí)研究科學(xué)家馬丁?施密德(Martin Schmid)說,AI 系統(tǒng)需考慮每個(gè)玩家在游戲情境中的所有可能視角。
雖然在完全信息游戲中只有一個(gè)視角,但在不完全信息游戲中可能有許多這樣的視角,比如在撲克游戲中,視角大約有 2000 個(gè)。
此外,與 DeepMind 繼 AlphaZero 之后研發(fā)的更高階 MuZero 算法不同,Player of Games 也需要了解游戲規(guī)則,而 MuZero 無需被告知規(guī)則即可飛速掌握完全信息游戲的規(guī)則。
在其研究中,DeepMind 評(píng)估了 Player of Games 使用谷歌 TPUv4 加速芯片組進(jìn)行訓(xùn)練,在國際象棋、圍棋、德州撲克和策略推理桌游《蘇格蘭場》(Scotland Yard)上的表現(xiàn)。
在圍棋比賽中,AlphaZero 和 Player of Games 進(jìn)行了 200 場比賽,各執(zhí)黑棋 100 次、白棋 100 次。在國際象棋比賽中,DeepMind 讓 Player of Games 和 GnuGo、Pachi、Stockfish 以及 AlphaZero 等頂級(jí)系統(tǒng)進(jìn)行了對(duì)決。
在國際象棋和圍棋中,Player of Games 被證明在部分配置中比 Stockfish 和 Pachi 更強(qiáng),它在與最強(qiáng)的 AlphaZero 的比賽中贏得了 0.5% 的勝利。
盡管在與 AlphaZero 的比賽中慘敗,但 DeepMind 相信 Player of Games 的表現(xiàn)已經(jīng)達(dá)到了“人類頂級(jí)業(yè)余選手”的水平,甚至可能達(dá)到了專業(yè)水平。
Player of Games 在德州撲克比賽中與公開可用的 Slumbot 對(duì)戰(zhàn)。該算法還與 Joseph Antonius Maria Nijssen 開發(fā)的 PimBot 進(jìn)行了蘇格蘭場的比賽。
結(jié)果顯示,Player of Games 是一個(gè)更好的德州撲克和蘇格蘭場玩家。與 Slumbot 對(duì)戰(zhàn)時(shí),該算法平均每 hand 贏得 700 萬個(gè)大盲注(mbb / hand),mbb / hand 是每 1000 hand 贏得大盲注的平均數(shù)量。
同時(shí)在蘇格蘭場,DeepMind 稱,盡管 PimBot 有更多機(jī)會(huì)搜索獲勝的招數(shù),但 Player of Games 還是“顯著”擊敗了它。
研究關(guān)鍵挑戰(zhàn):訓(xùn)練成本太高
施密德相信 Player of Games 是向真正通用的游戲系統(tǒng)邁出的一大步。
實(shí)驗(yàn)的總體趨勢是,隨著計(jì)算資源增加,Player of Games 算法以保證產(chǎn)生更好的最小化-最優(yōu)策略的逼近,施密德預(yù)計(jì)這種方法在可預(yù)見的未來將擴(kuò)大規(guī)模。
“人們會(huì)認(rèn)為,受益于 AlphaZero 的應(yīng)用程序可能也會(huì)受益于游戲玩家。”他談道,“讓這些算法更加通用是一項(xiàng)令人興奮的研究。”
當(dāng)然,傾向于大量計(jì)算的方法會(huì)讓擁有較少資源的初創(chuàng)公司、學(xué)術(shù)機(jī)構(gòu)等組織處于劣勢。在語言領(lǐng)域尤其如此,像 OpenAI 的 GPT-3 這樣的大型模型已取得領(lǐng)先性能,但其通常需要數(shù)百萬美元的資源需求,這遠(yuǎn)超大多數(shù)研究小組的預(yù)算。
即便是在 DeepMind 這樣財(cái)力雄厚的公司,成本有時(shí)也會(huì)超過人們所能接受的水平。
對(duì)于 AlphaStar,公司的研究人員有意沒有嘗試多種構(gòu)建關(guān)鍵組件的方法,因?yàn)楦吖軅冋J(rèn)為訓(xùn)練成本太高。根據(jù) DeepMind 披露的業(yè)績文件,它在去年才首次盈利,年收入達(dá)到 8.26 億英鎊(折合約 69 億人民幣),獲得 4380 萬英鎊(折合約 3.67 億人民幣)的利潤。從 2016 年~2019 年,DeepMind 共計(jì)虧損 13.55 億英鎊(折合約 113 億人民幣)。
據(jù)估計(jì),AlphaZero 的訓(xùn)練成本高達(dá)數(shù)千萬美元。DeepMind 沒有透露 Player of Games 的研究預(yù)算,但考慮到每個(gè)游戲的訓(xùn)練步驟從數(shù)十萬到數(shù)百萬不等,這個(gè)預(yù)算不太可能低。
結(jié)語:游戲 AI 正助力突破認(rèn)知及推理挑戰(zhàn)
目前游戲 AI 還缺乏明顯的商業(yè)應(yīng)用,而 DeepMind 的一貫理念是借其去探索突破認(rèn)知和推理能力所面臨的獨(dú)特挑戰(zhàn)。近幾十年來,游戲催生了自主學(xué)習(xí)的 AI,這為計(jì)算機(jī)視覺、自動(dòng)駕駛汽車和自然語言處理提供了動(dòng)力。
隨著研究從游戲轉(zhuǎn)向其他更商業(yè)化的領(lǐng)域,如應(yīng)用推薦、數(shù)據(jù)中心冷卻優(yōu)化、天氣預(yù)報(bào)、材料建模、數(shù)學(xué)、醫(yī)療保健和原子能計(jì)算等等,游戲 AI 研究對(duì)搜索、學(xué)習(xí)和博弈推理的價(jià)值愈發(fā)凸顯。
“一個(gè)有趣的問題是,這種水平的游戲是否可以用較少的計(jì)算資源實(shí)現(xiàn)。”這個(gè)在 Player of Games 論文最后中被提及的問題,還沒有明確的答案。
關(guān)鍵詞: DeepMind 加強(qiáng)版 AlphaGo 助力 突破認(rèn)知及
推薦
-
AI卷入俄烏戰(zhàn)爭 人工智能被用于竊聽士兵在戰(zhàn)場上的通信內(nèi)容
在俄烏戰(zhàn)爭中,一種人工智能(AI)工具正在被用于竊聽俄羅斯士兵在戰(zhàn)場上的通信內(nèi)容。該工具是由美國人工...
來源:智東西 -
整體需求不振DDR4持續(xù)跌價(jià) 目前仍未有止跌趨勢
眾所周知,DRAM 作為存儲(chǔ)器中的重要組成部分,在半導(dǎo)體產(chǎn)業(yè)鏈當(dāng)中也是具有舉足輕重的地位,不過,DRAM...
來源:愛集微 -
雷諾首席執(zhí)行官 計(jì)劃為電動(dòng)汽車業(yè)務(wù)設(shè)立一個(gè)單獨(dú)部門
雷諾首席執(zhí)行官 Luca de Meo 本周二表示,公司計(jì)劃為電動(dòng)汽車業(yè)務(wù)設(shè)立一個(gè)單獨(dú)的部門,最終該部門可...
來源:愛集微 -
通用汽車制定全球連續(xù)性計(jì)劃 以減輕汽車行業(yè)面臨的不確定性
通用汽車公司本周一表示,已與其合作伙伴和供應(yīng)商制定了一項(xiàng)全球連續(xù)性計(jì)劃,以減輕中國疫情爆發(fā)后汽車...
來源:愛集微 -
歐盟抱團(tuán)突圍振興半導(dǎo)體 各國都在尋求領(lǐng)導(dǎo)地位
歐盟委員會(huì)公布了投入超過430億歐元的《歐洲芯片法案》(A Chips Act for Europe)。4月初,西班牙宣...
來源:人民郵電報(bào) -
元宇宙興起 Web3.0再次成為各大廠商關(guān)注焦點(diǎn)
近日,隨著元宇宙的興起,Web3 0又再次成為各大廠商關(guān)注的焦點(diǎn)。中國證監(jiān)會(huì)科技監(jiān)管局局長姚前發(fā)表文章...
來源:科技日?qǐng)?bào) -
北京市組織召開廣告牌匾規(guī)范治理工作推進(jìn)會(huì)
信息導(dǎo)覽、手機(jī)充電、5G微基站……曾一度被人們遺忘的街頭公用電話亭將被賦予更多便民服務(wù)功能,這是記...
來源:科技日?qǐng)?bào) -
年度全國十大考古新發(fā)現(xiàn)終評(píng)會(huì) 以網(wǎng)絡(luò)會(huì)議形式在京舉行
近日,由中國文物報(bào)社、中國考古學(xué)會(huì)主辦的2021年度全國十大考古新發(fā)現(xiàn)終評(píng)會(huì)以網(wǎng)絡(luò)會(huì)議形式在京舉行。...
來源:科技日?qǐng)?bào) -
銳捷網(wǎng)絡(luò)舉辦發(fā)布會(huì) 正式發(fā)布U空間解決方案
前段時(shí)間,疫情下的深圳貢獻(xiàn)了一個(gè)名場面:需遠(yuǎn)程辦公的打工人扛著主機(jī)回家,生動(dòng)詮釋了人在主機(jī)在的打...
來源:人民郵電報(bào) -
科學(xué)家收集123984張核磁共振腦掃描圖 繪制全生命周期人腦發(fā)育圖
英國《自然》網(wǎng)站6日公開的一篇論文,描述了覆蓋人類整個(gè)生命周期的大腦發(fā)育標(biāo)準(zhǔn)參考圖。這些參考圖根據(jù)...
來源:科技日?qǐng)?bào)
直播更多》
-
特斯拉公司CEO埃隆馬斯克 向Twitter發(fā)出收購要約
和外界預(yù)期的一樣,特斯拉公司 CEO 埃...
-
特斯拉公司CEO埃隆馬斯克 向Twitter發(fā)出收購要約
和外界預(yù)期的一樣,特斯拉公司 CEO 埃...
-
筆記本電腦代工廠廣達(dá)發(fā)布公告 配合防疫政策暫時(shí)停工
筆記本電腦代工廠廣達(dá)今(13)日發(fā)布公告...
-
英特爾公司宣布斥資30億美元 擴(kuò)建美國奧勒岡州D1X工廠
英特爾公司宣布斥資 30 億美元,擴(kuò)建...
-
莆田電信積極組織開展安全運(yùn)營專項(xiàng)工作 強(qiáng)化員工安全意識(shí)
為全面落實(shí)穩(wěn)字當(dāng)頭、穩(wěn)中求進(jìn)的云網(wǎng)安...
-
精準(zhǔn)落實(shí)優(yōu)惠稅率 河北高企稅費(fèi)減免超百億元
近日,記者從河北省稅務(wù)局獲悉,2021年...
資訊更多》
-
合作伙伴解約高管...
-
全球PC出貨量降至8...
-
半導(dǎo)體行業(yè)正在努...
-
國網(wǎng)新源山東沂蒙...
-
與發(fā)達(dá)地區(qū)同頻共...
-
廣州聯(lián)通深入推進(jìn)...
焦點(diǎn)
- 奇瑞新能源一季度達(dá)成50013輛銷量 實(shí)現(xiàn)255.4%同比增長
- 昆山重新調(diào)整劃定5個(gè)靜態(tài)管理區(qū) 延長靜默期7天
- 受蘋果用戶隱私政策調(diào)整影響 科技巨頭2022年?duì)I收將減少近160億美元
- 加快湖北數(shù)字化轉(zhuǎn)型 5G信息技術(shù)重塑制造業(yè)發(fā)展形態(tài)
- 斯坦福大學(xué)團(tuán)隊(duì)發(fā)表論文 展示大腦運(yùn)動(dòng)皮層神經(jīng)網(wǎng)絡(luò)如何實(shí)現(xiàn)新記憶索引
- 廣東首座華南唯一 廣州匯云數(shù)據(jù)中心入選2021年國家新型數(shù)據(jù)中心名單
- 慢性疾病嚴(yán)重威脅我國居民健康 低齡化趨勢明顯
- 消除線路施工安全隱患 智慧光網(wǎng)云守護(hù)系統(tǒng)成為工地“火眼金睛”
- IMT-2020推進(jìn)組蜂窩車聯(lián)工作組第二十次全體會(huì)議 近日在線上舉行
- 氣候變暖將珊瑚推向耐熱極限 人工智能助力尋找耐熱珊瑚