MATLAB代做|python代做|FPGA代做|RL与有监督学习、无监督学习的比较

发布时间：2019/4/5 浏览数：30876

RL与有监督学习、无监督学习的比较：
（1）有监督的学习是从一个已经标记的训练集中进行学习，训练集中每一个样本的特征可以视为是对该situation的描述，而其label可以视为是应该执行的正确的action，但是有监督的学习不能学习交互的情景，因为在交互的问题中获得期望行为的样例是非常不实际的，agent只能从自己的经历（experience）中进行学习，而experience中采取的行为并一定是最优的。这时利用RL就非常合适，因为RL不是利用正确的行为来指导，而是利用已有的训练信息来对行为进行评价。
（2）因为RL利用的并不是采取正确行动的experience，从这一点来看和无监督的学习确实有点像，但是还是不一样的，无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构，而RL的目的是最大化reward signal。
（3）总的来说，RL与其他机器学习算法不同的地方在于：其中没有监督者，只有一个reward信号；反馈是延迟的，不是立即生成的；时间在RL中具有重要的意义；agent的行为会影响之后一系列的data。

联系：highspeedlogic

QQ ：1224848052

微信：HuangL1121

邮箱：1224848052@qq.com

网站：http://www.mat7lab.com/

网站：http://www.hslogic.com/

微信扫一扫：

上一篇:MATLAB代做|MATLAB专业代做|强化学习--信赖域系方法：TRPO、PPO 下一篇:MATLAB代做|MATLAB专业代做|强化学习简介

首页

业务范围

项目展示

资源共享

业内新闻

合作说明

关于我们

MATLAB代做|python代做|FPGA代做|RL与有监督学习、无监督学习的比较

关于我们

业务范围

项目展示

资源共享

联系我们