六安沧州西安三亚宝鸡菏泽
投稿投诉
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

通用诞生在多种棋类游戏中超越人类

  01hrDeepMind的一项研究提出了MuZero算法,该算法在不具备任何底层动态知识的情况下,通过结合基于树的搜索和学得模型,在雅达利2600游戏中达到了SOTA表现,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero,甚至超过了提前得知规则的围棋版AlphaZero。
  MuZero算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估结果。横坐标表示训练步骤数量,纵坐标表示Elo评分。黄色线代表AlphaZero(在雅达利游戏中代表人类表现),蓝色线代表MuZero。
  基于前向搜索的规划算法已经在AI领域取得了很大的成功。在围棋、国际象棋、西洋跳棋、扑克等游戏中,人类世界冠军一次次被算法打败。此外,规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响。然而,这些规划算法都依赖于环境的动态变化,如游戏规则或精确的模拟器,导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制。
  基于模型的强化学习旨在通过以下步骤解决这一问题:首先学习一个环境动态模型,然后根据所学模型进行规划。一般来说,这些模型要么着眼于重建真实的环境状态,要么着眼于完整观察结果的序列。然而,之前的研究在视觉上丰富的领域还远远没有达到SOTA水准,如雅达利2600游戏。
  最受欢迎的方法是基于无模型强化学习的方法,即直接从智能体与环境的交互中估计优化策略和或价值函数。但在那些需要精确和复杂前向搜索的领域(如围棋、国际象棋),这种无模型的算法要远远落后于SOTA。
  研究者在57个不同的雅达利游戏中评估了MuZero,发现该模型在雅达利2600游戏中达到了SOTA表现。此外,他们还在不给出游戏规则的情况下,在国际象棋、日本将棋和围棋中对MuZero模型进行了评估,发现该模型可以匹敌AlphaZero超越人类的表现。而且,在该实验中,其前辈AlphaZero提前获知了规则。
  MuZero算法概览
  MuZero基于AlphaZero强大的搜索和基于搜索的策略迭代算法,但又将一个学习好的模型整合到了训练步骤中。MuZero还将AlphaZero扩展到了一个更加广泛的环境集合,包含单个智能体域和中间时间步上的非零奖励。
  该算法的主要思路是预测那些与规划直接相关的未来行为(如下图1所示)。模型将接收到的观察结果(如围棋棋盘图像或雅达利游戏截图)作为输入,然后将其转换为一个隐藏状态。接下来,通过一个循环过程来迭代更新该隐藏状态,该循环过程接收前一个隐藏状态和假设的下一步操作。
  在每一个步骤上,模型会预测策略(如玩的动作)、价值函数(如预测的赢家)以及即时奖励。对模型进行端到端训练的唯一目标是准确估计这三个重要的量,以匹配改进的策略估计和通过搜索及观察到的奖励生成的值。
  对于隐藏的状态,没有直接的约束和要求来捕获重建原始观察结果所需的信息,大大减少了模型维护和预测的信息量;也没有要求隐藏状态匹配环境中未知、真实的状态;更没有针对状态语义的其他约束。
  相反,隐藏状态能够地以任何与预测当前和未来值和策略相关的方式来表示状态。直观地说,智能体可以在内部创建规则和动态,以实现最精确的规划。
  图1:用一个训练好的模型进行规划、行动和训练。(A)MuZero利用其模型进行规划的方式;(B)MuZero在环境中发生作用的方式;(C)MuZero训练其模型的方式。
  MuZero算法详解
  研究者对MuZero算法进行了更详细的解读。在每个时间步t上、以过往观察结果O1,,Ot和未来行为at1,,atk为条件、通过一个具有参数的模型,为每个k1K步进行预测。该模型预测三种未来数量:策略
  、价值函数
  和即时奖励
  ,其中u。表示观察到的正确奖励,表示用来选择实时行动的策略,表示环境的贴现函数(discountfunction)。
  在每个时间步t上,MuZero模型由表征函数、动态函数和预测函数联合表征。在本文中,研究者对动态函数进行了确切的表征。策略和价值函数则通过预测函数
  并根据内部状态sk来计算,这与AlphaZero的联合策略和价值网络相似。
  给定这样一个模型,则有可能在基于过往观察结果O1,,Ot的情况下查找基于假设的未来轨迹a1,,ak。例如,一个简单的搜索可以轻松地选择最大化价值函数的k步动作序列。更普遍地说,我们或许可以将任何MDP(马尔科夫决策过程)规划算法应用于由动态函数推导出的内部奖励和状态空间。
  对于每个假设的时间步k,模型的所有参数接受联合训练,从而在k个实际的时间步后,对策略、价值和奖励与它们各自对应的目标值进行精确的匹配。与AlphaZero相似,提升后的策略目标通过蒙特卡洛树(MCTS)搜索生成。第一个目标是最小化预测策略pkt和搜索策略tk之间的误差;第二个目标是最小化预测值vkt和价值目标ztk之间的误差;第三个目标是最小化预测奖励rkt和观察到的奖励utk之间的误差。最后添加L2正则化项,得出以下总损失:
  实验结果
  在实验中,研究者将MuZero算法应用于围棋、国际象棋和日本将棋等经典棋盘游戏中,作为挑战规划问题的基准;同时又应用于雅达利游戏环境中的57个游戏,作为视觉复杂强化学习领域的基准。
  下图2展示了MuZero算法在每个游戏训练中的性能。在围棋游戏中,尽管搜索树中每个节点的计算量小于AlphaZero,但MuZero的性能依然略微超过AlphaZero。这表明MuZero可能在搜索树中缓存自身计算,并利用动态模型的每个附加应用来对位置产生更深的理解。
  图2:MuZero算法分别在国际象棋、日本将棋、围棋和雅达利游戏训练中的评估结果。在国际象棋、日本将棋和围棋游戏中,横坐标表示训练步骤数量,纵坐标表示Elo评分。
  表1:雅达利游戏中MuZero与先前智能体的对比。研究者分别展示了大规模(表上部分)和小规模(表下部分)数据设置下MuZero与其他智能体的对比结果,表明MuZero在平均分、得分中位数、Env。Frames、训练时间和训练步骤五项评估指标(红框)取得了新的SOTA结果。
  为了了解MuZero中模型的作用,研究者还重点在围棋和吃豆人雅达利游戏中进行了以下几项实验。他们首先在围棋的典型规划问题上测试了规划的可扩展性(下图3A)。此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图3B)。接着,他们将自己基于模型的学习算法与其他相似的无模型学习算法进行了比较(下图3C)。
  图3:MuZero在围棋、57个雅达利游戏、吃豆人游戏上的评估结果。

太空之旅一天我在玩电脑的时候,不知道按了那个键,就跟随着电脑来到了一个奇妙的地方。这里到处像烟雾一样白茫茫的,我胆战心惊的左顾右盼。但什么也看不见。定睛一瞧,不是我看不见,是什么……豆制品家族分为两大派你最钟情于哪一派在我们日常的饮食中,豆制品是非常重要的组成部分,它的营养价值高,而且价格经济实惠。据目前史料记载,世界上最早的豆制品出现在中国,当年的淮南王刘安在寻找长生不老药的过程中无意发明……如何在男友面前表现自己在本文中:共度过愉快的时光表现出你对他的关心学会高质量的交流17参考你交了个男朋友。现在你会想,在他面前我该如何表现呢?别担心,和男友相处真不是什么复杂的事情虽然你有时并……宫寒怎么办祖传特效秘方治疗宫寒生活中,宫寒这个病症是很多女性朋友都有的,宫寒常常影响女性朋友的健康;那么宫寒应该怎么治疗呢?下面就给大家推荐祖传特效秘方治疗宫寒:祖传特效秘方治疗宫寒:1、泡脚……骨折伤者的自我急救措施日常生活中我们在锻炼或是其他工作时,如果没把握好安全,那么很有可能会有骨折的情形发生,那么面对这样的一个病症,我们该如何才能自救呢?下面大家一起来学习相关的骨折自救的办法。……吃什么可以治声音嘶哑呢我们吃什么可以治声音嘶哑?想知道这个问题的答案,我们首先应该知道,为什么声音嘶哑。声音嘶哑的原因其实有很多,但是大多数都是由于发炎引起的。还有多半部分学生声音嘶哑是因为男生处于……五花肉怎么做好吃五花肉的做法与烹饪技巧五花肉又称三层肉,位于猪的腹部,猪腹部脂肪组织很多,其中又夹带着肌肉组织,肥瘦间隔,故称五花肉。这部分的瘦肉也最嫩且最多汁。五花肉也是人们平时吃的最多的肉类,下面教大家怎么做五……如何存放灭火器对于大家来说,在现在生活当中,对抗火灾最好的方式,就是使用一定的灭火器了。而现如今,很多家庭都会有一定的灭火器装置。那么,你知道如何存放灭火器吗?下面,本站小编就为您介绍一些相……开水是软水吗水质的污染,让越来越多的人开始关注水质安全。也开始有目的的学习饮水知识。一些不不太熟悉水知识的人提出了各种各样的问题。如开水是软水吗?为了解惑,小编就来具体介绍一下。不一……食用香精的作用食用香精是食品工业必不可少的食品添加剂。在食品添加剂中它自成一体,有千余个品种。食用香精种类可分为:天然香精、等同天然香精、人工合成香精、微生物方法制备的香精、反应型香精。……支付宝怎么查个人信息如今通过支付宝账号实现转账已成为一种潮流,由于支付宝每天都有提供免费的转账功能,因此我们可以很容易的通过网上支付宝进行现金交易。那么支付宝怎么查个人信息呢?下面本站就来为大家介……参加手球运动时肌肉拉伤了怎么办手球运动时肌肉拉伤是很常见的一种现象,很多人在运动的时候都会出现肌肉拉伤的症状。运动时肌肉拉伤的原因有很多,比如没有热身、运动量过大等等参加手球运动时肌肉拉伤了怎么办呢?下面让……
你怎样过早晨就怎样过一生来源哪梁爽哪喜庆(ID:zheliangshuang)01:hr上周女同事小敏亲自演示了一遍:冬天的早上起不来床,有多耽误事?她吃午饭时跟我诉苦:早上闹钟响的时候,……缘木求鱼新解缘木求鱼新解猫对鱼嗜好是一种天性。一天,一只小花猫闲来无事在村里游逛,忽然发现在一个树杈上挂了一串鱼干儿。于是,就三下两下爬上去,遂美餐一顿。下来后,边走,边砸吧着……下雨思念一个人的说说时间谎称会冲淡一切偏偏思念半一、找不到喜欢的伞,我宁愿淋雨。二、一滴开心二滴快乐三滴吉祥四滴如意,五滴好运六滴福气七滴幸福八滴顺利,滴滴雨,传真情,绵绵雨,送祝福:愿你雨天薪水涨不停,幸福涨不够!……硝酸酐的发明19世纪前期,许多化学家都赞同萨尔热拉尔的观点,认为只有多元酸才能制得酸酐。这种意见只是理论上推测,所以法国化学家德维尔并没有轻易附合,他决定用实验来制取一元硝酸酐。他在玻璃管……从管钱到找钱小企业也要任性盘点2014年,某某产品完成融资的新闻可谓此起彼伏,2C市场的大数额融资令人垂涎不已。而在2B市场,纷享销客完成C轮融资的消息亦是席卷管理软件行业,规模之大羡煞旁人,5000万……良好的沟通能力有助于个人职业发展在实际工作中,一个人的沟通协调能力是很重要的,善于沟通,良好的沟通效果往往会使人很快在工作中打开局面,赢得宽松的发展空间,并且有较高的成就感,而不善于沟通,沟通不畅则经常会让人……谢霆锋曾患皮肤癌件事保持肌肤健康选择适合的防晒用品不少MM为了达到防晒效果,即使在阳光不充足的日子也选择高倍防晒。事实上高倍防晒并不意味着你可以偷懒不补涂,日常应用SPF15的防晒霜就够用了,高倍防晒适……幸好有你我的祖国《战狼2》的末尾有这么一句话:中华共和国公民:当你们在海外遭遇危险时,不要放弃!请记住,在你身后,有一个强大的祖国!我相信:看过《红海行动》、《战狼》等一系列电影的人,无……来一场爱丽丝主题婚礼吧传统的婚纱照形式已经慢慢不被追捧,而主题婚纱照显然已经成为了一种潮流,越来越受年轻新人的喜爱。美国摄影师LaurenBrimhall因受电影《爱丽丝梦游仙境》(AliceinW……最顶级的航拍壹人类一般喜欢抬头仰望云彩飘过,但亚历山大格斯特(AlexanderGerst)却给了我们一个俯视云彩的机会。这位地球物理学家是目前驻守在国际空间站的六名宇航员之一,根据Thi……适合齐肩发女生的扎发发型精致小可爱时尚扎发学起来适合齐肩发女生的扎发发型从辛芷蕾锁骨大火之后,像这种长度到肩膀附近的发型也越来越受女生们的欢迎,头发半长不短,好看又好打理,而且还可以打造出百变的扎发型发型哦。那齐肩发要……小白兔运南瓜有一个秋天的早晨,小白兔很早就起床了,玩了一会突然想:今天森林里的好朋友小猴、小熊和小刺猬要到我家来玩,中午我请他们吃什么呢?小白兔马上就有了主意,它就连蹦带跳地到了以前……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网