“阿法零”接連打敗國際象棋將棋世界冠軍 “阿法狗”走向教學
2017年12月15日11:52

【觀察者網綜合報導】自2016年3月甫出茅廬震驚世人後,“阿法狗”(AlphaGo)連續擊敗各路圍棋高手,令人談虎色變。可怕的是其“自我更新”的能力,幾經升級的“阿法狗”不斷提高棋力,問鼎各種棋類巔峰。“無敵是寂寞”,沒了對手的“阿法狗”如今選擇放下身段,成為一款棋類教學程式,將“功力”傳授給大家。

這一決定當然不是這個人工智能(AI)程式自己做出的。12月11日,Google的AI子公司深度思維(DeepMind)宣佈發佈“阿法狗”教學工具。而兩天后,團隊資深研究員、曾代AI執子的“人肉臂”黃士傑,宣佈正式離開“阿法狗”,轉投深度思維其他項目。

“阿法狗”不斷升級

2016年,名為“阿法狗”的AI在和所有其他圍棋程式的對抗中獲得99.8%的勝率後,進一步學習,於當年3月挑戰人類圍棋世界冠軍。五局鏖戰,人類1∶4不敵AI,轟動一時。人們將這一成績視為彼時人工智能的巔峰之作,沒成想,這隻是“阿法狗”的起步。

2016年3月,李世石不敵“阿法狗” @視覺中國

今年1月,一個神秘賬號Master在知名圍棋平台上先後挑戰柯潔、樸廷桓和井山裕太等頂級高手,豪取勝利,隨後戰贏“棋聖”聶衛平,直至60盤決勝收官時自爆身份,公佈自己正是“阿法狗”新版。

10月,“阿法狗”程式再次升級――“阿法元”(AlphaGo Zero)出現。從深度思維在《自然》雜誌發表的論文來看,“阿法元”完全是自學成才,在自己與自己的對弈角力中突破自我。經過40個小時,棋力就超過了4000點;40天后,棋力達到5185點。其以100∶0的不敗戰績,狠狠擊敗了曾書寫歷史的舊版“阿法狗”;對陣“阿法狗”大師版的戰績是89比11。

2017年5月,何潔挑戰“阿法狗”,在大比分3:0落後的情況下,何潔淚灑棋枰 @視覺中國

此前,打敗韓國李世石的“阿法狗”版本棋力為 3739點。打得柯潔淚灑棋枰的“阿法狗”大師版棋力為 4858 點。

直至12月6日,深度思維再出驚人之舉:其研發的新一代“阿法零”,憑藉強勁的計算資源,使其經過不到24小時的自我對弈強化學習,就接連擊敗了國際象棋、將棋、圍棋三個世界冠軍級的電腦程式,自此成了全能棋王。

“阿法零”獨孤求敗

最新出現的“阿法零”,是深度思維團隊繼“阿法元”問世之後帶給人們的又一全新算法,並稱它是“更通用版本”。

目前,“阿法零”算法可以在8個小時訓練後擊敗去年對戰李世石版本的“阿法狗”,再以4小時訓練擊敗世界頂級的國際象棋程式Stockfish;又用2小時訓練擊敗世界頂級將棋程式Elmo。

深度思維在《自然》雜誌發表的論文

與前輩“阿法元”相比,“阿法零”有很多自己的獨到之處。首先,“阿法元”是在假設結果為贏/輸二元的情況下,對獲勝概率進行估計和優化,而“阿法零”會將平局及其他潛在結果都考慮在內,深一步估計和優化;其次,“阿法零”並不是靠轉變棋盤位置進行數據增強,它只對單一神經網絡進行維護,並不斷更新該神經網絡;最後,“阿法零”所有對弈都重複使用相同的超參數(開始學習過程之前設置值的參數,而非通過訓練得到的參數數據),因此無需額外針對特定某種棋類再進行調整。

無敵是寂寞,“阿法狗”傳授功力

本月11日,深度思維拿出了一套“阿法狗”教學工具。“阿法狗”團隊核心成員黃士傑在其社交媒體賬號上介紹說,該教學工具總共收錄了約6000個近代圍棋史上主要的開局變化,從23萬個人類棋譜中收集而來,而所有盤面都有“阿法狗”評估的勝率及推薦的下法。

“阿法狗”教學系統網站

這套教學使用的其實是神秘賬號Master那一版的“阿法狗”。但這裏所有的勝率與下法,AI都思考過將近10分鍾――這意味著1000萬次模擬,而每一個開局變化,“阿法狗”都固定延伸20步棋。再加上下法,整套教學工具約有2萬個分支變化,37萬個盤面。團隊成員希望,人們能感受這套教學工具中的創新,並可從中獲益。

教學系統推出兩天后,黃士傑宣佈正式告別“阿法狗”,投身公司的其他研究中。

其實早在今年5月,當“阿法狗”戰勝柯潔後,深度思維就宣佈此後該程式不會再參加到人機大戰的競技中去。團隊的下一步計劃,是研發出廣泛算法以投入應用,包括給出疾病的治療方案、設法將能源消耗降低,以及發明出革命性新材料等。

現在,深度思維已與Google數據中心共同研發管理製冷系統的新技術,並與英國全民醫療健康系統達成合作。他們,在讓AI相關算法真實落地於應用中。

關注我們Facebook專頁
    相關新聞
      更多瀏覽