首页 > 科学

有没有一种机器学习模型可以用只说“对”或“错”的标签来训练？

2021-02-12 22:19

I正在尝试查找用于输出决策的模型的名称（可能类似于right、left或do nothing=-1、0、1），但可以使用包含“correct”或“incorrect”的标签对其进行训练。我试

解答动态

你要找的是所谓的“强化学习”。
A强化学习算法将尝试最大化奖励函数。这个奖励代表了一个行为在实际环境中的“好”或“坏”。例如，在蛇游戏中，你吃苹果的奖励为正，蛇撞到墙上的奖励为负。
有趣的是，通过强化学习，你可以在每一步都没有奖励的情况下学习。在snake游戏中，你的代理可以了解到朝着苹果的方向走比朝着墙的方向走要好，即使这些行为都不会直接给你一个奖励（正面或负面）。
如果你想像你的帖子所暗示的那样使用神经网络，那么你应该看看深度Q学习，一种强化学习算法，它利用神经网络来学习预测一对夫妇的期望报酬（状态、动作）
End

本页内容仅代表作者本人意见，若因此产生任何纠纷由作者本人负责，概与琴岛网公司无关。本页内容仅供参考，请您根据自身实际情况谨慎操作。尤其涉及您或第三方利益等事项，请咨询专业人士处理。