关注 | Uber公司设计新型AI算法，有望对机器人工作产生巨大影响-同心智造网

导语在蒙特祖玛的复仇（Montezuma's Revenge）和玛雅人的冒险（Pitfall!）这两款游戏里，如果有一个算法能记住游戏里的探索过程，那么这个算法就能帮助计算机和机器人更好地学习和适应真实世界。由怀俄明大学的副教授 Jeff Clune 领导，来自优步在旧金山的人工智能研究团队，提供了一种新型的机器学习算法刚刚攻克了一些对人工智能来说非常困难的电子游戏。

熟悉的人知道，人工智能算法已经在古老、优雅的策略游戏——围棋中击败了世界上最优秀的人类选手，围棋已经是是可以想象到的最困难的游戏之一。但是，来自上个世纪的 8 位计算机游戏时代的两个经典像素游戏——蒙特祖玛的复仇和玛雅人的冒险，一直困扰着人工智能研究人员。

这看似矛盾的背后其实是有原因的。蒙特祖玛的复仇和玛雅人的冒险虽然看似简单，但对本来就擅长征服电子游戏的强化学习来说仍是一大挑战。DeepMind 是谷歌母公司 Alphabet 的子公司，专注于人工智能领域，以其算法能够以专业玩家的水准来学习几个经典的电子游戏的而著名。强化学习算法在大多数游戏里效果都不错，因为它们可以根据正反馈（得分升高）调整他们的行为。强化学习的成功使人们产生了希望，认为人工智能算法可以自己教会自己做各种有用的事情，而这目前对机器来说是不可能做到的。

蒙特祖玛的复仇和玛雅人的冒险的问题是所需要的奖励（rewards）信号很少。两个游戏都涉及典型场景：主角要探索充满致命生物和陷阱的方块世界，在游戏中许多所必需的行为都无助于提高分数，只在长时间完成特定的一系列动作之后才会收到奖励信号。普通的强化学习算法甚至过不去蒙特祖玛的复仇和玛雅人的冒险的第一关，他们得分完全为零。

但是来自优步在旧金山的人工智能研究团队的算法，在一个给算法提供线索很少的环境中展示了一种完全不同的机器学习方法。这种方法引出了一些有趣的实际应用，Clune 和他的团队在 11 月 26 日发布的博客文章中写道，这可能可以应用在机器人学习中。这是因为未来的机器人需要弄清楚在一个只提供较少的奖励的复杂的环境中应该做些什么。

Uber 于 2016 年 12 月建立人工智能实验室，其目标是实现可能对其业务有用的基础性突破。更好的强化学习算法最终可用于自动驾驶和优化车辆路线等项目上。

很多人工智能研究人员经常通过指导强化学习算法不定时随机探索、同时为探索过程增加奖励——也就是所谓的”内在动机”（intrinsic motivation), 来试图解决蒙特祖玛的复仇与玛雅人的冒险遇到的问题。

但 Uber 的研究人员认为，这种方法忽略了人类探索好奇心的一个重要角度。“我们认为目前的”内在动机”算法的一个主要弱点是 detachment，”他们写道，“算法忘记了他们访问过的有价值的区域，他们不会回到那些区域，看看是否会产生新的状态。”

该团队设计了新的强化学习算法，称为 Go-Explore，这种算法可以记住之前的状态，并会在随后返回特定区域或重复特定任务，看看这样做是否会使效果变好。研究人员还发现，通过让人类玩家突出有趣或重要的区域来增加一些领域信息时，可以大大加快算法的学习过程。这一过程非常重要，因为在真实环境中，有很多情况是需要算法和人一起工作来解决一项艰巨的任务的。

他们的算法在蒙特祖玛的复仇中平均得分为 400,000 分——比人类玩家的平均值高出一个数量级。在玛雅人的冒险游戏中，平均得分为 21,000，同样远远超过大多数人类玩家。

“这些结果令人印象深刻，”研究强化学习的斯坦福大学助理教授 Emma Brunskill 说，“令人惊讶和兴奋的是，这些算法产生了如此巨大的优势。”

其他人工智能研究人员也一直在努力攻克这些电子游戏。10 月，旧金山的非营利组织——OpenAI 的一个团队，展示了一种能够在蒙特祖玛的复仇游戏中取得重大进展的算法。

就在最近，斯坦福大学的 Brunskill 小组在玛雅人的冒险游戏方面也取得了一些的进展，他们使用的方法与 Uber 团队类似。

现在人工智能算法可以解决这些视频游戏，真正的挑战是从街机游戏中脱离出来，解决现实问题。

Brunskill 同意这种算法可能对机器人技术产生重大影响。但是她表示，在其他现实世界的情况中，特别是那些涉及人类行为建模的情况，要远远困难得多。“想看看这种方法对于更复杂的环境表现的如何，这将非常有趣，”她说。

本文版权归原作者所有，同心智造网（www.hahakm.com）转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

关注 | Uber公司设计新型AI算法，有望对机器人工作产生巨大影响

相关推荐

发表回复