最新消息:

【人工智能:人機交互】Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!

後台-係統設置-擴展變量-手機廣告位-手機廣告位-內容廣告位一

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  史上最強AI棋手降臨!

  今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊 Science 以封麵論文的形式,正式引入學界和公眾的視野。

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強國際象棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo)。

  現在,DeepMind將完整評估後的AlphaZero公之於眾,不僅驗證了上述結果,還補充了新的提升。

  AlphaZero沒有使用人類知識(除了棋類基本規則),從零開始訓練,快速掌握日本將棋、國際象棋和圍棋這三種複雜棋類遊戲,展現出令人耳目一新的獨道風格,拓展了人類智慧,並證明了機器擁有創造性的可能。

  “計算機程序通常會反映出編程者的側重和偏見,但由於AlphaZero通過自我對弈訓練,我認為它體現了棋的真諦(truth)。正是這種出色的理解使其能夠超越世界頂級的傳統棋類引擎,而且每秒計算的落子位置要少得多。”

  AlphaZero證明了機器也能成為專家,機器生成的知識也值得人類去學習。“AlphaZero以這樣一種強大而有用的方式超越了我們,”卡斯帕羅夫寫道:“隻要在虛擬知識(virtual knowledge)能夠生成的領域,這個模型都可能複製到任何其他任務上。”

  下麵,就讓我們一起來看看,AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文,闡述他們如何用5000個TPU,讓AlphaZero快速掌握將棋、國際象棋和圍棋。

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  傳統國際象棋的引擎依賴於由人類高手玩家“手工製作”的數千條規則和啟發式方法,它們都試圖解釋遊戲中可能發生的每一種結果。

  日本將棋程序也是特定於遊戲的,使用與國際象棋程序類似的搜索引擎和算法。

  AlphaZero則采用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些“手工製作”的規則,而這些算法對基本規則之外的遊戲卻一無所知。

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  在國際象棋中,AlphaZero僅用了4個小時便首次超越了Stockfish;在日本將棋中,AlphaZero在2小時後首次超過Elmo;在圍棋方麵,AlphaZero在2016年的比賽中,經過30個小時的鏖戰,首次擊敗了傳奇棋手李世石。注:每個訓練步驟代表了4096個落子位置。

  為了學習每一個遊戲,一個未經訓練的神經網絡通過強化學習與自己對打數百萬次。

  一開始,它完全是隨機的,但是隨著時間的推移,係統從輸贏中開始學習,並根據神經網絡的參數進行調整,使其在未來可以選擇更有利的走法。

  網絡需要的訓練量取決於遊戲的風格和複雜性,國際象棋需要9小時,將棋需要12小時,圍棋需要13天。

  訓練後的網絡用於指導搜索算法(蒙特卡羅樹搜索,MCTS),選擇遊戲中最有有利的動作。對於每次移動,AlphaZero僅搜索傳統國際象棋引擎所考慮的一小部分位置。

  例如,在國際象棋中,它每秒僅搜索6萬個位置,相比之下,Stockfish大約有6千萬個位置。

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  這些經過全麵訓練的係統是在國際象棋(Stockfish)和將棋(Elmo)最強大的“手工引擎”以及我們之前自學的AlphaGo Zero係統(已知最強大的圍棋選手)的幫助下進行測試的。

  在每次評估中,AlphaZero都毫無懸念地擊敗了對手:

  Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!-贵州快三網

  和圍棋一樣,我們對AlphaZero在國際象棋上的創造性突破感到興奮,自從計算機時代以來,人工智能時時麵臨著巨大挑戰,包括巴貝奇、圖靈、馮·諾依曼在內的早期計算機先驅人物,都曾試圖設計國際象棋程序,但AlphaZero的用途不僅僅是國際象棋、將棋和圍棋。

  為了創建能夠解決各種現實問題的智能係統,它們需要更加靈活,能夠適應新情況。雖然目前在實現這一目標方麵取得了一些進展,但AI的通用化問題仍然是研究中的一項重大挑戰,經過訓練的AI係統麵對特定任務時能夠以極高標準完成,但任務隻要稍有變化往往就會失敗。

  AlphaZero掌握了三種不同的複雜遊戲,這可能是朝著解決這一問題邁出的重要一步。盡管目前還處於早期階段,但AlphaZero取得的進步,以及在蛋白質折疊係統AlphaFold等其他項目上的令人鼓舞的結果,讓我們對實現通用學習係統的使命充滿信心,相信未來我們能夠找到一些新的解決方案,解決最重要、最複雜的科學問題。

轉載請注明:贵州快三 » 【人工智能:人機交互】Science封麵:AlphaZero人工智能終極進化,史上最強AI棋手降臨!

與本文相關的文章

後台-係統設置-擴展變量-手機廣告位-手機廣告位-內容廣告位二
留言與評論(共有 0 條評論)
   
驗證碼:
後台-係統設置-擴展變量-手機廣告位-手機廣告位-內容廣告位三