MATLAB代做|MATLAB专业代做|强化学习简介

发布时间：2019/4/5 浏览数：33712

强化学习的思想源于行为心理学（behavioural psychology）的研究。1911年Thorndike提出了效用法则（Law of Effect）：一定情境下让动物感到舒服的行为，就会与此情景加强联系，当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与此情景的联系，此情景再现时，此行为将很难再现。换句话说，那种行为会被记住取决于该行为产生的效用。例如：在主人扔出飞盘时，狗叼回飞盘给主人的行为获得了肉骨头，将会使得“狗叼回扔出的飞盘”这个行为和“主人扔出飞盘时”这个情景加强了联系，“获得肉骨头”的效用将使狗记住“叼回扔出的飞盘”的行为。

在给定情境下，得到奖励的行为会被“强化”而受到惩罚的行为会被“弱化”。这样一种生物智能模式使得动物可以从不同行为尝试获得的奖励或惩罚学会在该情境下选择训练者最期望的行为。这就是强化学习的核心机制：用试错（trail-and-error）来学会在给定的情境下选择最恰当的行为。Sutton定义强化学习为：通过试错学习如何最佳地匹配状态（states）和动作（actions），以期获得最大的回报（rewards）。

强化学习不仅直接模仿了生物学习的智能模式，而且也不像其它大多数机器学习方法中，智能体需要被告诉去选择哪种动作，使用强化学习方法的智能体能够通过尝试不同的动作，自主地发现并选择产生最大回报的动作。正如Tesauro所描述的那样：强化学习使得智能体可以根据自己的经验进行自主地学习，既不需要任何预备知识也不依赖任何外部智能“老师”的帮助。

强化学习大脑

“如何最佳的匹配状态和动作”，强化学习所解决的这样很具有普遍性的问题。使得强化学习在机器人学，最优控制，棋类对弈，策略博弈，飞行控制，导弹制导，预测决策，金融投资以及城市交通控制等领域都有大量的应用。

再从计算机实现的角度看，大多数其它机器学习的方法都需要实现智能体的人事先知道要智能体解决的问题是“什么”，以及问题“怎么样”来解决。再通过编写指令来告诉智能体如何求解。遗憾的是，知道“做什么”远比知道“怎么做”的情形多得多。例如，对于这样一个问题：一个城市交通网络由多个十字路口以及它们之间的道路组成，每一个十字路口的交通灯由一个Agent控制，那么这多个Agent应该如何协作控制红绿灯的时段长短，使得进入该城市交通网络的所有车辆在最短时间内离开该城市交通网络呢？Agent学习要“做什么”的问题是清晰的：使所有车辆以最短时离开该城市交通网络；但“怎样做”却是复杂和困难的。

强化学习提供了这样一种美好的前景：只要确定了回报，不必需要规定Agent怎样完成任务，Agent 将能够通过试错学会最佳的控制策略。在前面的多Agent交通控制问题中，只需规定所有车辆通过时间越短获取的回报越大，那么这多个Agent将自主学会最优的交通灯协作控制策略使得所有车辆在最短时间内通过该城市网络。尽管直到今天，解决这样多个十字路口的交通灯控制问题，强化学习依然面临巨大的计算量和较长的计算时间。但从实现的角度来看，本文认为强化学习是一种可以把人从必须考虑“怎么做”中解放出来的机器学习方法，也相信强化学习是能够使得智能能够从如Bezdek描述的从计算智能进化到人工智能直至生物智能的途径之一。

强化学习示意

强化学习的研究历史：1954年Minsky首次提出“强化”和“强化学习”的概念和术语。1965年在控制理论中Waltz和傅京孙也提出这一概念，描述通过奖惩的手段进行学习的基本思想。他们都明确了“试错”是强化学习的核心机制。Bellman在1957年提出了求解最优控制问题以及最优控制问题的随机离散版本马尔可夫决策过程（Markov Decision Process，MDP）的动态规划（Dynamic Programming）方法，而该方法的求解采用了类似强化学习试错迭代求解的机制。尽管他只是采用了强化学习的思想求解马尔可夫决策过程，但事实上却导致了马尔可夫决策过程成为定义强化学习问题的最普遍形式，加上其方法的现实操作性，以致后来的很多研究者都认为强化学习起源于Bellman的动态规划，随后Howard提出了求解马尔可夫决策过程的策略迭代方法。

到此时强化学习的理论基础（马尔可夫决策过程）和求解算法:试错的策略迭代基本确定下来。此后一段时间，强化学习被监督学习（supervised learning）的光芒所遮掩，像统计模式识别，人工神经网络均属于监督学习，这种学习是通过外部有知识的监督者提供的例子来进行学习的，但这种学习已经完全违背了强化学习的宗旨，因为监督学习有了“教师”（supervisor），有了预备知识（examples）。到1989年，Watkins提出的Q学习进一步拓展了强化学习的应用和完备了强化学习。Q学习使得在缺乏立即回报函数（仍然需要知道最终回报或者目标状态）和状态转换函数的知识下依然可以求出最优动作策略，换句话说，Q学习使得强化学习不再依赖于问题模型。此外Watkins还证明了当系统是确定性的马尔可夫决策过程，并且回报是有限的情况下，强化学习是收敛的，也即一定可以求出最优解。至今，Q学习已经成为最广泛使用的强化学习方法。

联系：highspeedlogic

QQ ：1224848052

微信：HuangL1121

邮箱：1224848052@qq.com

网站：http://www.mat7lab.com/

网站：http://www.hslogic.com/

微信扫一扫：

首页

业务范围

项目展示

资源共享

业内新闻

合作说明

关于我们

MATLAB代做|MATLAB专业代做|强化学习简介

关于我们

业务范围

项目展示

资源共享

联系我们