当前位置：华闻网 - 互联

教AI好奇如何帮助机器自己学习

时间：2022-03-21 06:06 作者：安远来源：网易热搜：机器阅读量：7054

玩视频游戏，是什么促使你继续。

这个问题可能过于宽泛，无法给出一个单一的答案，但如果你必须总结为什么你接受下一个任务，跳到一个新的关卡，或者洞穴并再玩一个回合，最简单的解释可能是好奇——只是想看看接下来会发生什么事实证明，在教 AI 玩电子游戏时，好奇心也是一个非常有效的激励因素

在没有奖励的游戏中，教 AI 很困难

研究发表在本周的人工智能实验室OpenAI解释了AI剂的好奇感如何跑赢它的前辈玩经典的1984年雅达利游戏蒙特祖马的复仇熟练掌握蒙特祖玛的复仇并不等同于击败围棋或Dota 2的里程碑，但它仍然是一个显着的进步当谷歌拥有的 DeepMind 发表了2015 年的开创性论文，解释了它如何使用深度学习击败了许多 Atari 游戏时，Montezuma's Revenge是唯一一款得分为 0 的游戏

游戏难的原因在于其玩法与 AI 智能体的学习方式不匹配，这也暴露了机器学习的世界观存在盲点。

通常，人工智能代理依靠一种称为强化学习的训练方法来掌握视频游戏在这种范式中，代理被丢入虚拟世界，并因某些结果而获得奖励，并因其他结果而受到惩罚代理开始随机玩游戏，但通过反复试验学习改进其策略强化学习通常被认为是构建更智能机器人的关键方法

Montezuma's Revenge的问题在于它没有为 AI 代理提供定期奖励这是一款解谜平台游戏，玩家必须探索地下金字塔，躲避陷阱和敌人，同时收集解锁门和特殊物品的钥匙如果你正在训练一个 AI 代理打游戏，你可以奖励它活着并收集钥匙，但你如何教它为某些物品保存某些钥匙，并使用这些物品克服陷阱并完成关卡

答案:好奇。

在 OpenAI 的研究中，他们的代理不仅因为跳过了尖峰坑，还因为探索了金字塔中的新部分而获得了奖励这导致了比人类更好的表现，机器人在九次运行中的平均得分为 10，000在一次运行中，它甚至完成了游戏九个级别中的第一个

肯定还有很多工作要做，OpenAI 的 Harrison Edwards 告诉The Verge但我们目前拥有的是一个系统，可以探索很多房间，获得很多奖励，偶尔还能通过第一关他补充说，游戏的其他关卡与第一关类似，因此通关只是时间问题

解决嘈杂的电视问题

OpenAI远不是第一个尝试这种方法的实验室，几十年来，人工智能研究人员一直在利用好奇心的概念作为动力他们之前也将其应用于蒙特祖玛的复仇，尽管如果不教人工智能从人类示例中学习，就从未如此成功

可是，虽然这里的一般理论已经确立，但构建具体的解决方案仍然具有挑战性例如，基于预测的好奇心仅在学习玩某些类型的游戏时才有用它适用于像马里奥这样的游戏，例如，有很大的关卡需要探索，充满了前所未见的老板和敌人但对于像Pong这样简单的游戏，AI 代理更喜欢玩长距离的拉力赛，而不是真正击败他们的对手

人工智能可能会像人类一样沉迷于随机奖励

另一个问题是嘈杂的电视问题，即被编程为寻找新体验的人工智能代理会沉迷于随机模式，例如调谐到静态噪声的电视这是因为这些代理人对什么是有趣和新的感觉来自于他们预测未来的能力在他们采取某种行动之前，他们会预测游戏之后的样子如果他们猜对了，他们很可能以前看过这部分游戏这种机制被称为预测误差

但是由于静态噪音是不可预测的，结果是任何面对这样的电视的 AI 代理都会被迷住OpenAI 将这个问题与沉迷于老虎机的人类赌徒进行了比较，他们无法摆脱自己，因为他们不知道接下来会发生什么

GIF:OpenAI

这个 GIF 显示了一个 AI 代理探索迷宫并被随机闪烁的图像分散注意力。

OpenAI 的这项新研究通过改变 AI 预测未来的方式来回避这个问题确切的方法很复杂，但 Edwards 和他的同事 Yuri Burda 将其比作隐藏一个秘密，让 AI 在游戏的每个屏幕中找到这个秘密是随机且毫无意义的，但它会激励代理进行探索，而不会使其容易受到嘈杂电视陷阱的影响

更重要的是，这个动机不需要大量的计算，这非常重要这些强化学习方法依赖于大量数据来训练 AI 代理，因此旅程的每一步都需要尽可能快

它实际上比其他探索方法要简单得多。

Unity 的软件工程师和机器学习专家 Arthur Juliani 说，这就是让 OpenAI 的工作令人印象深刻的原因他们使用的方法非常简单，因此非常有效，Juliani 告诉The Verge它实际上比过去应用于游戏的其他探索方法要简单得多并没有带来几乎令人印象深刻的结果)

Juliani 表示，鉴于Montezuma's Revenge 中不同关卡之间的相似性， OpenAI 的工作本质上等同于解决游戏，但他补充说，他们无法持续击败第一关的事实意味着仍有一些还剩下一个公开的挑战他还想知道他们的方法是否适用于 3D 游戏，因为在 3D 游戏中，视觉特征更加微妙，第一人称视角遮挡了大部分世界

在需要探索但环境各部分之间的差异更加微妙的情况下，该方法可能表现不佳，朱利安尼说。

Matt Winkelmeyer / Getty Images 为 WIRED25 拍摄的照片

现实世界中的机器人，比如波士顿动力公司的 SpotMini，也可以从人为的好奇心中受益。

好奇的点

但是为什么我们首先需要好奇的人工智能呢。它对我们有什么好处，除了与我们人类被随机模式所困的倾向提供幽默的相似之处

最大的原因是好奇心有助于计算机自行学习。

今天部署的大多数机器学习方法可以分为两个阵营:第一，机器通过查看大量数据来学习，找出可以应用于类似问题的模式，其次，他们被放到一个环境中，并因使用强化学习取得某些成果而获得奖励。

这两种方法在特定任务上都很有效，但它们也需要大量的人力，要么标记训练数据，要么为虚拟环境设计奖励函数通过赋予 AI 系统以探索为目的进行探索的内在动力，可以消除其中的一些工作，并且人类花费更少的时间握住 AI 代理的手

OpenAI 的 Edwards 和 Burda 表示，这种好奇心驱动的学习系统更适合构建必须在现实世界中运行的计算机程序毕竟，在现实中，就像在《蒙特祖玛的复仇》中一样，直接的回报往往是稀缺的，我们需要长时间的工作，学习和探索，才能得到任何回报好奇心可以帮助我们继续前进，也许它也可以帮助计算机

。