ITPub博客

实例讲解:我的强化学习初体验!

原创 人工智能 作者:格伯纳 时间:2019-02-25 18:02:40 0 编辑
摘要

介绍假设你在玩电子游戏。你进入一个有两扇门的房间。第一扇门的后面有100枚金和一条通道。第二扇门后面是1枚金币和另一个方向的通道。一旦你穿过其中一扇门,则不能返回。你应该选择哪扇门呢?如果你的决定仅仅是基于最大化你的即时回报(当前利益),那么你的答案就是第一扇门。然而,你玩大多数电子游戏的目标并不是希望在游戏的某个部分利益最大化(在某一关卡获得MVP),而是在整个游戏中最大化你的利益(比如说,打通

请登录后发表评论 登录
全部评论
管理员

注册时间:2018-03-30

  • 博文量
    226
  • 访问量
    570256

All in AI