📜  强化学习

📅  最后修改于: 2021-04-17 03:45:38             🧑  作者: Mango

强化学习是机器学习的一个领域。它是关于采取适当的措施以使特定情况下的报酬最大化。它被各种软件和机器所采用,以找到在特定情况下应采取的最佳行为或路径。强化学习与有监督学习的不同之处在于,在有监督学习中,训练数据具有答案键,因此模型可以使用正确答案本身进行训练,而在强化学习中,没有答案,而是由强化主体决定要做什么执行给定的任务。在没有训练数据集的情况下,它必然会从其经验中学习。

示例:问题如下:我们有一个代理商和一个奖励,两者之间有许多障碍。代理商应该找到获得奖励的最佳途径。以下问题更容易说明问题。

上图显示了机器人,钻石和火。机器人的目标是获得作为钻石的奖励,并避免着火的障碍。机器人通过尝试所有可能的路径然后选择能够为他带来最少障碍的奖励的路径来进行学习。每个正确的步骤将给予机器人奖励,而每个错误的步骤将减去机器人的奖励。总奖励将在达到最终奖励即钻石时计算。

强化学习要点–

  • 输入:输入应为模型将从其开始的初始状态
  • 输出:由于针对特定问题的解决方案多种多样,因此有许多可能的输出
  • 训练:训练基于输入,模型将返回状态,用户将根据其输出决定奖励或惩罚模型。
  • 该模型不断学习。
  • 最佳解决方案取决于最大的奖励。

强化学习和监督学习之间的区别:

Reinforcement learning Supervised learning
Reinforcement learning is all about making decisions sequentially. In simple words we can say that the output depends on the state of the current input and the next input depends on the output of the previous input In Supervised learning the decision is made on the initial input or the input given at the start
In Reinforcement learning decision is dependent, So we give labels to sequences of dependent decisions Supervised learning the decisions are independent of each other so labels are given to each decision.
Example: Chess game Example: Object recognition

加固类型:加固有两种类型:

  1. 积极的 –
    正强化定义为由于特定行为而发生的事件增加了行为的强度和频率的时间。换句话说,它对行为有积极影响。

    强化学习的优点是:

    • 最大化性能
    • 长期保持变化

    强化学习的缺点:

    • 钢筋过多会导致状态超载,从而降低结果
  2. 消极的 –
    负强化定义为由于停止或避免了负状况而增强的行为。

    强化学习的优势:

    • 增加行为
    • 违抗最低性能标准

    强化学习的缺点:

    • 它仅提供足以满足最低要求的行为

强化学习的各种实际应用–

  • RL可用于工业自动化的机器人技术。
  • RL可用于机器学习和数据处理
  • RL可用于创建培训系统,根据学生的需求提供定制的指导和材料。

RL可在以下情况下在大型环境中使用:

  1. 环境模型是已知的,但没有解析解决方案;
  2. 仅给出环境的仿真模型(基于仿真的优化的主题)
  3. 收集有关环境的信息的唯一方法是与环境进行交互。

资料来源:维基百科