嗨热线网 > 科技 > 智能 >

1:2,李世石最后一战被AI击败,唯一战胜过Alpha

2019-12-23 13:41
  11月19日,李世石向韩国棋院正式递交辞呈,宣告了自己24年职业围棋生涯的结束。在接受韩联社采访时,他表示自己之所以选择退役,是因为“AI不可战胜”。
 
  12月21日,全罗道新安郡曾岛EIdorado度假村,李世石在第181手投子认输。这是与Handol退役赛对战的最后一局,前两局,李世石一胜一负。最后一盘棋,还是惜败于AI。
 
  12岁入段,36岁正式退役,24年揽获14项国际项冠军和32项国内冠军,从此以后,「李世石九段」不会再以职业棋手的身份出现在众人面前。
  最后一战,他还是选择了AI
 
  11月19日,李世石向韩国棋院正式递交辞呈,宣告了自己24年职业围棋生涯的结束。
 
  在接受韩联社采访时,他表示自己之所以选择退役,是因为「AI不可战胜」:「在围棋AI出现以后,我发觉即使自己成为第一名,也永远需要面对一个不可战胜的实体。」
 
  李世石曾经的对手,曾经「绝代双骄」的另一人——中国围棋职业选手古力九段在得知这一消息之后,在社交平台上公开表示:「此刻只想给他一个大大的拥抱。」
 
  当很多人都以为李世石的最后一战会选择与古力对决时,李世石却选了韩国围棋AI「Handol」,理由是担心「最后和他下棋的人会有负担」。
 
  这是他自从2016年负于AlphaGo之后,再一次对战围棋AI,也是人类棋手第一次与AI下升降三番棋。
 
  一直以来,人们都认为顶尖人类棋手与AI之间的差距在二子到三子之间,但由于从来没有进行过正式比赛的对局,所以真正差距无从得知。李世石提到,自己最终选择下升降棋,也是想确认人类和人工智能之间的差距到底有多少。在对战Handol之前,李世石说自己已经有大概5个月的时间没有参加过比赛,也几乎没有进行过围棋训练。
 
  北京时间12月18日12时,李世石与Handol开始第一局对弈。李世石执黑被让两子,按7目半还子。前半盘黑棋先拿到右上角实地,胜率一直保持在80%以上。随后白棋开始反击,直到第78手之前,胜率一直处于上升阶段。
 
  转折点出现在李世石的第78手(值得一提的是,李世石当年对战AlphaGo获胜的唯一一局,胜负手同样是第78手)。黑棋吃掉白棋棋筋,加之Handol在第84手征子失误,只得在第92手时投子认输。
 
  这场比赛仅用两小时就分出了胜负,在100手以内即告结束。尽管李世石表示赛前曾连续练习了十天的被让两子棋,「几乎醒着的时候都在练棋」,但他也表示未能料到自己会在与AI的对决中获胜。
 
  12月19日,第二局。由于李世石在第一局比赛中获胜,第二局Handol不再让子,李世石仍然执黑先行。
 
  这一局,李世石在第31手出现误判,而后白棋的胜率预测一直保持在90%以上,到了第40手以后,胜负已经基本明朗。
 
  第31手。
 
  最终李世石在第122步认输。这一局时长3小时20分钟,至此,李世石与Handol1:1战平,而剩下的最后一局尤为关键。
 
  人类再次在围棋「人机大战」中取得了一场胜利。谷歌DeepMind资深研究员、ALphaGo主要程序开发者黄士杰曾在看完前两盘对决之后表示,如果再有两年的算法更新和优化,AlphaGoMaster将会是最强的棋手。但AI要做到万无一失,仍需要解决bug问题。
 
  12月21日,最后一局的赛场转移到了李世石的家乡全罗道新安郡。这一场李世石依然受两子执黑挑战AI,黑棋贴目7目半。人类与AI在棋盘右下角展开激战。
 
  在最后一局中,Handol解除了大部分限制,在每一步上花费了更多「思考」时间。AI执白在右下角存活之后,逐渐将胜率从20%扳至五五开,李世石的思考时间则逐渐用尽。
 
  下午2时50分左右,李世石进入读秒,此时白棋已在右侧和左上成活,李世石试图通过打劫寻找AI的破绽。
 
  但李世石的努力并没有扭转颓势,在弈至159手时,AI判断李世石的胜率降到5%。
 
  最终,在行至181手时,李世石投子认负。
 
  赛后,李世石在接受采访时表示:「这场比赛中,Handol的表现与前几场类似,如果自己能够再谨慎一点,或许比赛的结果会有所不同。」对于退役后的工作,李世石还没有做出选择。
 
  棋坛再无「李世石九段」
 
  李世石的退役消息来得突然,但也算早有苗头。今年3月份,李世石在「三一运动一百周年纪念对局」中败于柯洁之后,即透露过自身想要「在一年之内」退役的想法。
 
  除了没有信心战胜AI,李世石的退役似乎也和自己与韩国棋院之间的矛盾分不开。在韩国棋院的24年中,李世石曾提交过休职申请,也强行退出过棋士会,特立独行的处事方式与其在棋盘上的风格如出一辙。
 
  李世石1983年出生在距离全罗南道新安郡的飞禽岛,爱好围棋的父亲是李世石的第一任导师。6岁开始接触围棋的李世石是兄弟姐妹中年龄最小的一个,但也是天赋最高的一个。9岁时,因大哥李相勋成功入段,父亲终于也下定决心将李世石送到有「韩国围棋山脉」之称的首尔权甲龙围棋道场学棋。
 
  3年零6个月后,年仅12岁的李世石成功入段,从此在韩国棋院开始了职业围棋生涯。24年来,李世石已经获得了14个国际比赛冠军,32次国内比赛冠军,皆仅次于李昌镐,高居历史第二。
 
  2000年,当时的「李世石三段」在巴斯卡杯天元战和倍达王战中击败柳才馨九段和刘昌赫九段,连获两个冠军,成为围棋史上成就最高的「三段」选手。但他却拒绝参加升段赛,声称「段位并不能体现实力」。为此,韩国棋界不得不废除了升段赛,改以成绩定段位。2001年,李世石在获得第五届LG杯世界棋王赛亚军后升至七段,2003年获LG世界棋王战冠军,直升九段。
 
  李世石的围棋生涯中曾有一次「妥协」的退役风波,2009年6月,李世石曾向韩国棋院提交过休职书,称因「韩国棋院对棋手不合理的约束」而身心疲惫,计划从当日起休职到2010年底。半年后,李世石复职,但桀骜不驯的性格并未改变。2016年,李世石又与哥哥李相勋一起,因韩国棋院「克扣奖金」的原因退出了棋士会。
 
  唯一打败过AlphaGo的人类
 
  尽管在围棋上已经登峰造极,真正让李世石名声大噪的还是与AlphaGo的「人机大战」。
 
  李世石在2016年3月与AlphaGo的一番激战,被认为是人工智能历史上的一次里程碑事件——虽然李世石以1:4的比分落败,但在比赛的第四局,李世石的惊天翻盘却让他成为了迄今为止唯一一个战胜过AlphaGo的棋手。他在第78手出人预料的一挤,让AlphaGo后续的反应出现失常,彻底改变了战局——这与此次在第一局中战胜Handol的场面何其相似。
 
  李世石面对AlphaGo的那一次胜利,曾经为人类战胜人工智能带来了一线希望,但后来李世石将胜利归功于AlphaGo程序的缺陷。「我的第78手并不应该用直接的方式应对。」
 
  当然,这样的bug不止存在于AlphaGo。李世石曾说:「在腾讯『绝艺』中,这样的bug至今仍然会出现。即使现在的绝艺已经可以做到让人类两子胜利了,但它仍然会以奇怪的方式输掉比赛,这是因为一个bug所致。」
 
  在前三场比赛输给AlphaGo之后,他曾感到相当沮丧。「我很少看网上对我的评论,但是输给了阿尔法狗以后,我很好奇大家怎么看我。意外的是,很少有人批评我。」
 
  人类真的永远不会再战胜AI?
 
  这一次对战Handol,李世石赚了2亿韩元(约合121万元人民币),包括1亿5000万韩元的基本出场费,每胜一局额外获得5000万韩元的奖金。
 
  自从2016年AlphaGo大战李世石之后,围棋AI即被推上风口浪尖。基于近年以来深度学习和强化学习的发展,AlphaGo和各类围棋AI的不断升级,人们一度认为,人类再不可能战胜AI。
 
  Handol是韩国NHN娱乐公司推出的一款围棋AI,用以训练的数据来自1999年以来NHN公司在游戏业务方面的大量积累。与AlphaGo的进化路线相似,2017年12月,Handol1.0出世,当时已拥有人类职业棋手9段棋力,可以实现在人类棋谱及既定模式的基础上对棋局进行预测,到了Handol2.0已经能够脱离棋谱,自己与自己下棋。在NHN看来,Handol2.1的实力已经超越了当初对战李世石的AlphaGo。
 
  2019年1月,Handol连续战胜了申旻埈九段、李东勋九段、金智硕九段、朴正焕九段和申真瑞九段五位韩国顶级围棋选手,8月在山东举行的「中信证券杯」世界智能围棋公开赛中,Handol也捧回了季军奖杯。
 
  在「Handol」首局落败之后,NHN公司人工智能项目的负责人李昌律推测称,「输掉这一局的原因kennel在于「Handol」总体学习量尚且不足,缺少对开局让两子和让三子等棋局的学习」。
 
  据「Handol」研发团队估算,「Handol」的棋力水平相当于世界围棋中的4500积分,而目前李世石的积分为3414分,柯洁、朴廷桓等人类顶尖棋手的积分接近3700分。
 
  在围棋AI领域,棋力最高的选手仍然是DeepMind公司的AlphaGo,它也是第一个击败人类围棋世界冠军的人工智能程序。在2017年柯洁与AlphaGo对战之后,DavidSilver、谷歌大脑负责人JeffDean等人曾在乌镇围棋峰会现场对AlphaGo背后的技术进行过解读。
 
  AlphaGo最初主要是依靠大量学习人类棋手的棋谱来提高棋艺,之后进入到完全的自我深度学习阶段,也就是完全摒弃人类棋手的思维方式,按照自己(左右互搏)的方式研究围棋。结合监督学习与强化学习的优势,AlphaGo通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对有所可行的落子位置形成一个概率分布。然后训练一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。
 
  AlphaGo真正的优势来源于将策略网络和价值网络整合进基于概率的蒙特卡罗树搜索(MCTS)中。在获取棋局信息后,AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最繁琐考察的位置将成为AlphaGo的最终选择。经过先期的全盘探索和过程中对最佳落子的不断揣摩,AlphaGo的探索算法就能在其计算能力之上加入近似人类的直觉判断。2016年1月28日,击败李世石的AlphaGo版本登上《Nature》封面,随后在3月即4:1击败李世石,名声大振。
 
  和人类不同,AlphaGo没有先入为主的概念,这恰恰也是所有围棋AI的优势所在:尽管有时AI的落子显得违反直觉,但确实是最合理的。
 
  乌镇之后,DeepMind宣布AlphaGo从此不会再参与比赛,但在几个月后推出了更强版本的围棋AI「AlphaGoZero」。如果说AlphaGo版本最初还需要观察数千场人类围棋比赛来训练如何学习围棋,AlphaGoZero则直接跳过这一步,从自己完全随机的下围棋开始来学习围棋,几天之内即超越人类棋手的水平,并且以100:0的比分打败了之前战胜世界冠军的AlphaGo。
 
  早期的AlphaGo使用「决策网络」选择下一步棋的位置,使用「价值网络」预测每一个位置上决定的胜者。这两个网络在AlphaGoZero中被结合起来,从而使其更高效地训练和评估赛况。并且,AlphaGoZero版本只需4块TPU即可运行。
 
  上个月,DeepMind又推出了名为MuZero的「通用版」AlphaGo,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero,在围棋中甚至超过了AlphaZero。但与前辈不同的是,MuZero不需要提前获知规则。
 
  在围棋AI领域,国内研究机构和企业也在发力,其中最有代表性的要数上文中李世石提到的腾讯围棋AI「绝艺」。「绝艺」诞生于2016年,实力或仅次于AlphaGo。
 
  「绝艺」的训练主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。在2018腾讯世界人工智能围棋大赛中,「绝艺」在决赛中7:0大胜另一款围棋AI「星阵」夺冠,半决赛五番棋和决赛七番棋不失一局,赛后「星阵」研发团队亦称赞「绝艺」已经「达到了AlphaGo的水准」。
 
  虽然在围棋的算力上,人类已经难以与机器相比,但棋手们可以通过与AI的对弈不断提升自己的水平,甚至发展出更为先进的战术。据古力此前透露,「绝艺」已经成为中国国家围棋队训练专用AI。

郑重说明:网站资源摘自互联网,如有侵权,麻烦通知删除,谢谢!

联系方式:hiholiday12399@gmail.com