Reinforcement Learning Chapter1 Basic Concept

Reinforcement Learning Chapter1 Basic Concept

第一章 强化学习概述

  1. 学习是人类智能的重要表现之一,人之所以能适应环境的变化并不断提高解决问题的能力,其原因在于人能通过学习积累经验,总结规律,以增长知识和才能,从而更好地改善自己的决策和行为。

  2. 机器学习(machine learning)一般定义为一个系统的自我改进的过程,以知识的自动获取和产生为研究目标。

  3. 研究者发现(这是谁?),生物进化过程中为适应环境而进行的学习有两个特点:

    1. 人从来不是静止的,被动地等待,而是主动地对环境进行试探。
    2. 环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的行为,是一种从环境状态到行为映射的学习。
  4. 强化学习是一种与监督学习,无监督学习对等的学习模式,而不是一种具体的计算方法

1.1 强化学习模型及其基本要素

1.1.1 强化学习的模型

  1. 要解决的问题:一个能够感知环境的自治智能体(Agent),如何通过学习选择达到目标的最优动作。

  2. Agent 为适应环境而采取的学习具备以下特征,则称为强化学习:

    1. Agent 不是静止的,被动地等待,而是主动对环境做出试探。
    2. 环境对试探动作反馈的信息是评价性的(好或坏,模糊规则?)。
    3. Agent 在行动(Action)-评价(Reaction)中获得知识,改进行动方案,达到预期目的。
  3. 强化学习的特点:
    1. 强化学习是一种弱的学习方式。强化信号可能是稀疏延迟的。不要求先验知识。Agent 在学习过程中所使用的反馈是一种数值回报形式,不要求有提供正确答案的教师。
    2. 强化学习是一种增量式学习,并可以在线使用。
    3. 强化学习可以应用于不确定环境。
    4. 强化学习的体系结构是可拓展的。

1.1.2 强化学习的基本要素

  1. 一个强化学习系统包含这么几个基本要素:Agent,策略,值函数,回报函数,环境模型(非必须)。

  2. Agent 只能够依赖于每次通过试错获得的立即回报来选择策略,而在选择行为策略过程中,要考虑到环境模型的不确定性和目标的长远性,因此在策略和立即回报之间构造值函数(即状态的效用函数,Utility Function)用于策略的选择。

  3. 策略(policy)

    1. 策略定义了 Agent 在给定时刻的行为方式,直接决定了 Agent 的动作,是强化学习的核心。
    2. Agent 在与环境交互过程中选择动作的方法称为策略 pi:S x A –> [0, 1]。S 为状态空间(这里可以联系到现代控制理论),A 为动作空间,pi(s, a) 表示在状态 s 下选择动作 a 的概率。
      • 策略的一个退化形式为 pi: S –> A,称为确定性策略,表示在状态 s 下动作 pi(s) 的执行概率为 1,其他动作的执行概率为 0。
    3. 关于任意状态所能选择的策略的集合 F,称为允许策略集合,pi 属于 F。在允许的策略集合中,存在的使问题具有最优效果的策略 pi* 称为最优策略。
  4. 回报函数(reward function)
    1. 强化学习的目的就是使 Agent 的最终得到的总的回报值最大。
    2. 回报函数往往是确定的,客观的,可以作为改变策略的标准。
  5. 值函数(value function)
    1. 回报函数表明眼前哪些是好的,是一种“近视”的表达信号,而值函数(即状态的效用函数,又称为评价函数)则是“远视”的表征,它表达了从长远角度来看哪些是好的。
    2. 大致来说,是从该状态起智能体(Agent)所能积累的回报的总和。
    3. 回报函数和值函数的关系:
      1. 没有回报就没有值函数。
      2. 估计值函数的目的是为了获得更多的回报。
    4. 举例,有的时候短期回报(回报函数)的值很小,但是长期回报(值函数)的值很大,在这时,我们往往使用值函数作为参考。
    5. 因为值函数作为了评判选择的标准,所以如何确定值函数就变得尤为重要,然而,值函数的确定往往比回报函数要难得多。回报通常由环境直接给出,但是值函数需要通过估计获得。因此,事实上,几乎所有的强化学习算法的核心都是如何有效地估计值函数。
  6. 环境模型(Environment Model)
    1. 环境模型一般是由环境给出,而不具体建模。

提问:
1. 环境模型在计算机中是固定的,所以可以由外界刺激产生对环境的建模过程?
2. 环境建模的必要性?

1.2 强化学习的发展史

  1. 强化学习的发展包含三条主线:
    1. 试错学习(trial-and-error)
    2. 动态规划与最优控制
    3. TD 学习(temporal differential learning)
    4. 现代强化学习

1.3 强化学习研究概述

  1. 维数灾难

1.3.1 分层强化学习(HRL)

  1. 分层强化学习的核心思想是抽象分层,抽象机制允许强化学习系统忽略与当前子任务无关的细节。

1.3.2 近似强化学习

  1. 对于大规模或连续空间的 MDP 问题,智能体不能遍历所有的状态-动作对,因此需要强化学习的值函数具有一定的泛华能力,利用有限的学习经验和记忆实现对一个大范围空间知识的有效获取和表示。
  2. 近似强化学习的本质就是用函数逼近器逼近这些映射关系。

1.3.3 启发式回报函数设计

  1. 强化学习中的奖励信号(立即回报)一般都是稀疏的,存在信度分配问题,Agent 需要执行一系列动作才能获得一个有效的奖励信号。针对此问题,启发式回报函数设计技术被提出,其基本思想是利用各种知识来优化奖励信号的设计,从而减小动作的奖励边界,加快学习。

1.4 强化学习的应用

1.4.1 自适应优化控制中的应用

  1. 自适应动态规划理论(adaptive dynamic programming, ADP)。ADP 使用 Actor-Critic 结构,以神经网络作为函数逼近器,是一种数据驱动的,具有学习和优化能力的智能控制方法,并且在鲁棒控制,最优控制和自适应控制领域有丰富的理论研究成果。

倒立摆控制

机器人控制

發表回覆

你的電郵地址並不會被公開。 必要欄位標記為 *