有没有一种机器学习模型可以用只说“对”或“错”的标签来训练?
2021-02-12 22:19
I正在尝试查找用于输出决策的模型的名称(可能类似于right、left或do nothing=-1、0、1),但可以使用包含“correct”或“incorrect”的标签对其进行训练。我试
解答动态
你要找的是所谓的“强化学习”。
A强化学习算法将尝试最大化奖励函数。这个奖励代表了一个行为在实际环境中的“好”或“坏”。例如,在蛇游戏中,你吃苹果的奖励为正,蛇撞到墙上的奖励为负。
有趣的是,通过强化学习,你可以在每一步都没有奖励的情况下学习。在snake游戏中,你的代理可以了解到朝着苹果的方向走比朝着墙的方向走要好,即使这些行为都不会直接给你一个奖励(正面或负面)。
如果你想像你的帖子所暗示的那样使用神经网络,那么你应该看看深度Q学习,一种强化学习算法,它利用神经网络来学习预测一对夫妇的期望报酬(状态、动作)- End
免责声明:
本页内容仅代表作者本人意见,若因此产生任何纠纷由作者本人负责,概与琴岛网公司无关。本页内容仅供参考,请您根据自身实际情况谨慎操作。尤其涉及您或第三方利益等事项,请咨询专业人士处理。
相关搜索