📜  强化学习(1)

📅  最后修改于: 2023-12-03 15:39:32.513000             🧑  作者: Mango

强化学习

介绍

强化学习是机器学习的一种分支,通过智能体通过与环境交互来学习如何做出最优的决策。它与监督学习和无监督学习的不同之处在于没有明确的标签或反馈,仅有奖励或惩罚信号。强化学习常常应用于自动控制、游戏AI、机器人等领域。

核心概念
  • 状态(state):与智能体交互环境时的状态
  • 行动(action):智能体采取的行动
  • 奖励(reward):智能体从环境中获取的奖励,同时也是智能体为了获取最大化奖励而进行行动的动力
  • 策略(policy):智能体选择行动的方式
  • 价值(value):智能体在某个状态或状态-行动对下获得的预期奖励,可以描述为长期回报
基本算法
  • 蒙特卡罗方法(Monte Carlo Method)
  • 时序差分算法(Temporal-Difference Learning)
  • Q-learning
  • SARSA
应用
  • 游戏AI:如围棋、象棋、Go等
  • 自动控制:如自动驾驶、工业控制、航空等
  • 机器人:如机器人步态控制、手臂控制等
相关工具
  • OpenAI Gym:一个强化学习的仿真环境框架
  • Tensorflow:前沿深度学习平台,其强化学习库rlkit和baselines可供参考
  • Keras-RL:基于Keras的强化学习库
参考资料
  • 《强化学习导论》
  • David Silver的课程笔记:https://www.davidsilver.uk/teaching/
  • OpenAI官网:https://openai.com/