您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

一种解决连续问题的真实在线自然梯度行动者-评论家算法

大小:0.85 MB 人气: 2017-12-19 需要积分:0

  策略梯度作为一种能有效解决连续空间决策问题的方法被广泛研究.然而,由于在策略估计过程中存在较大的方差,因此基于策略梯度的方法往往受到样本利用率低、收敛速度幔等限制.针对该问题。提出了真实在线增量式自然梯度行动者一评论家算法(TOINAC).TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(TOTD)算法的基础上。提出了一种新型的向前观点,改进了自然梯度行动者一评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数:在行动者部分。引入一种新的向前观点来估计自然梯度。再利用资格迹将自然梯度估计变为在线估计。提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布结合,解决连续空间问题.最后。在平衡杆、Mountain Car、以及Acrobot等连续问题上进行了仿真实验。验证算法的有效性.

一种解决连续问题的真实在线自然梯度行动者-评论家算法

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

一种解决连续问题的真实在线自然梯度行动者-评论家算法下载

相关电子资料下载

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!