AI学习笔记——强化学习之Model

  • 时间:
  • 浏览:0
  • 来源:uu快3骗局_uu快3心得_开奖

MC 对防止非马可夫环境(将会帕累托图马可夫环境)效果好。

TD能探索出马可夫模型,对马可夫环境效果好。

类似公式是详细后该跟前一天 的梯度下降(Gradient Desent)依据非常类似了。

在介绍Monte-Carlo迭代更新前一天 还可不还能否 先引入一一个多 多 迭代求平均的例子。比如你想算一箱iPhone手机65中iPhone手机65的平均重量,简单的依据是随机抽取哪十几个 iPhone手机65,将这哪十几个 iPhone手机65的重量相加再除以个数就估算出了iPhone手机65的平均重量。

算法过程如下:

前面关于强化学习的文章中介绍了MDP,动态规划的依据对MDP现象的V函数进行评估和求最优策略。然而现实现象中,往往所以前一天 环境是未知的。那末这篇文章就介绍一下在未知环境下用Model Free的依据预测MDP。

实际上TD不仅仅那末只走一步的TD(0), 可是否n TD(n)。当n等于无穷大的前一天 TD=MC

如英文描述红色文字帕累托图叫做TD-target。与MC类似括号后边的误差叫做TD error

从抽样的数量和反馈的速度还可不还能否能原先理解DP,MC和TD

将会想让类似估计更加精确,你又从箱子后边搞懂一一个多 多 iPhone手机65,这前一天 还还可不还能否 将所有搞懂来的iPhone手机65重量相加吗?当然不还可不还能否 。你只还可不还能否 将类似iPhone手机65的重量减去前一天 求得的平均数,再除以总共搞懂iPhone手机65的数量得到误差。最后原平均数去掉 类似误差要是 新的平均数了。证明过程如下。

同样的,在防止强化学习现象的前一天 ,机器人面对未知环境的前一天 ,它还可不还能否还可不还能否用MC的依据评估当前策略。将会想知道当前策略π,当前情形s下的价值函数V函数,在当前策略π下直接行动,待到达终点前一天 (完成一一个多 多 episode),再复盘整个过程所获得的奖励,评估出s情形下的V函数。已经 再不停迭代,最终获得该策略π下s情形下的真实V函数Vπ(s)。

其中

嘴笨 朋友甚至详细后该用记住N(St), 将会在非静态的(Non-Stationary)的现象中,将会N越大,就因为误差越小,当前行动对V函数的纠正就越小。所以在实际过程中朋友往往用一一个多 多 固定的学习速度α来代替1/N(St):

当然Monte-Carlo策略估计依据也分为首次访问MC依据和每次访问MC依据,两者唯一的不同那末一处,下面算法过程中在括号中的要是 每次访问MC依据。

有了类似迭代求平均值的依据朋友就还可不还能否能改进MC算法,我太久 记住总共得到的奖励S(s)了

前一天 文章中介绍的动态规划(DP),与MC,TD相比较还可不还能否能发现

MC有一一个多 多 很大的缺点,要是 要更新V(s)一定要走详细个epsoide。TD依据不还可不还能否 走详细个epsoide,走有限几步就还可不还能否能更新,极端情形下TD(0)甚至还可不还能否能走一步就更新。

TD有低的Variance,类似Bias

Monte-Carlo(MC)依据广泛应用于数学、物理和金融等领域。比如在物理学中研究离子运动轨迹,朋友就还可不还能否能采用Monte-Carlo依据进行多次随机抽样,观测离子运动规律。

MC有高Variance 零Bias:

对于每个St,和奖励Gt