Reinforcement Learning Chapter2 Basic Theory

Reinforcement Learning Chapter2 Basic Theory

第2章 强化学习基础理论

  1. 强化学习和动态规划作为求解优化决策问题的有效方法,都是基于马尔科夫决策过程(Markov Decision Process, MDP),面临维数灾难问题。
  2. 动态规划主要解决 MDP 环境的状态转移概率和回报函数模型已知的决策问题。强化学习则处理状态转移概率和回报函数模型未知的情形。

2.1 马尔科夫决策过程概述

  1. 马尔科夫决策过程起源于随机优化控制,根据环境是否可感知的情况,可分为完全可观测 MDP 和部分可观测 MDP 2种。

2.1.1 马尔科夫决策过程

  1. 马尔科夫决策过程是一个离散时间的随机过程,由六元组{S, A, D, P, r, J}来描述。
    • S 为有限的环境状态空间
    • A 为有限的系统动作空间
    • D 为初始状态概率分布,当初始状态是确定的,D在该状态下的概率为 1,当初始状态是以相等的概率从所有状态中选择时,则 D 可以忽略。
    • P(s, a, s』) 为状态转移概率,表示在状态 s 下选择动作 a 后使环境状态转移到状态 s』 的概率
    • r(s, a, s』) 为学习系统从状态 s 执行动作 a 转移到 s』 后获得的立即回报(奖赏)函数,是一种」近似」的表达信号
    • J 为决策优化目标函数
  2. 马尔科夫决策过程的特点是目前状态 s 向下一个状态 s』 转移的概率和回报只取决于当前状态 s 和选择的动作 a,而与历史状态与动作无关。因此,P 和 r 也只取决于当前状态和动作,而与历史状态无关。

  3. MDP 的决策优化目标函数 J 一般分为3种类型:

    • 有限阶段总回报目标
    • 无限折扣总回报目标
    • 平均回报目标

2.1.2 策略和值函数

  1. 在马尔科夫决策过程中,学习 Agent 是根据一个决策函数(即策略)来选择动作的。策略(policy)定义了 Agent 在给定时刻的行为方式,直接决定了 Agent 的动作。

  2. 一个平稳随机的动作定义为 $$\pi$$: S x A –> [0, 1],$$\pi(s, a)$$ 表示在状态 s 下选择动作 a 的概率,且 pi 不随时间的变化而变化。

  3. 在定义了 MDP 的策略后,我们可以将值函数分为 状态值函数 $$V^{\pi}(s)$$ 和 状态-动作值函数 $$Q^{\pi}(s, a)$$ 2种。状态值函数 $$V^{\pi}(s)$$ 表示学习系统从状态 s 开始根据策略 $$\pi$$ 选择动作所获得的期望总回报。

發表回覆

你的電郵地址並不會被公開。 必要欄位標記為 *