基函数自适应的强化学习的神经网络实现的研究
发布时间:2020-12-26 20:17
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最终目标的过程。策略评价是对策略好坏的评定,是强化学习重要的研究内容之一。一般策略评价算法是基于值函数进行的。值函数通常是通过线性参数化的值函数逼近器估计的。以往的函数逼近方法仅仅通过调节网络权值来改进近似精度,而没有考虑网络中基函数的参数。事实上,值函数逼近器的基函数对算法的性能也有很大的影响。一般来说,基函数中的中心点可以根据所要解决的问题确定,而基函数的宽度则较难选择,经常要经过多次实验,通过经验设定。本研究利用神经网络结构来实现强化学习算法,使网络中基函数的宽度可以自适应选取,论文的主要研究内容包括:1、提出了一种基函数自适应的带有梯度修正作用的强化学习网络算法。在本算法中,值函数逼近器中的基函数的参数(主要是指基函数的宽度)是自动调节直到最优的。其中时域差分误差和值函数由函数逼近器和带有梯度修正作用的递推最小二乘时域差分算法进行估计。同时,时域差分误差反传来更新值函数逼近器的参数,也就是网络权值和基函数宽度。这样就可以通过一个自适应的方法,使算法在学习的过程中...
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图1-1强化学习结构框图??Fig.1-1?Block?diagram?of?reinforcement?learning??
另一部分是策略提升,一般来说策略提升利用贪婪法则,也就是寻找最大值函数,??这个值函数所对应的策略就是提升的策略。这一步相对较简单。策略评价和策略提升??依次迭代进行,直到算法收敛,我们就得到了最优的策略,其过程如图2-2。??'??^提升的策略????JT??^?r??策略提升?策略评价??i?k??值函数????^???Q1??图2-2强化学习策略迭代示意图??Fig.2-2?Policy?iteration?for?reinforcement?learning??总的来说,策略if价给策略迭代提供了对于给定的策略的值函数。而策略提升保??证了选出的策略比原始策略更好。??2.2.4强化学习中目标函数??在强化学习中,一些目标函数用来实现梯度下降作用,使得参数得到修正。最常??见的目标函数就是均方误差(Mean-square?Error,?MSE)。均方误差是指通过值函数逼??近器得到的值函数的估计值和它的真实值的差的二范数,表示如下:??MSE(0)?=?||F,-F||^vtjDv?(2-6)??其中DeRis|x|s|是对角阵,表示向量二范数的平方。由于在强化学习中,真实的值??函数是不知道的。因此,上式的计算无法真正实现。??但是我们知道值函数满足贝尔曼方程
我们提出一种自适应的带有梯度修正作用的递推最小二乘时域差分算法??的神经网络结构,在本算法中我们利用神经网络结构实现RC算法,称为自适应RC??网络。自适应的RC网络的结构如图3-1所示,在本算法中主要由两部分组成,一部??分是强化学习部分,在强化学习部分使用RC算法,通过网络结构的形式来求解值函??数和TD误差中的线性参数向量,对值函数和TD误差进行近似求取;另一部分就是??网络学习部分,主要是指网络中的参数学习,包括网络中基函数的宽度以及网络权值??的更新。在这部分中,TD误差反传来调节网络参数。本算法使用的网络结构是一个??三层RBF祌经网络,具体各层结构如图3-1。??第一层是输入层。在本层,每个输入节点为输入的状态或者状态动作的集合以及??回报值,同时,输入节点数等于输入特征状态的维数。输入数据直接传到下一层。??19??
【参考文献】:
期刊论文
[1]Approximate policy iteration:a survey and somenew methods[J]. Dimitri P.BERTSEKAS. Journal of Control Theory and Applications. 2011(03)
[2]基于状态-动作图测地高斯基的策略迭代强化学习[J]. 程玉虎,冯涣婷,王雪松. 自动化学报. 2011(01)
硕士论文
[1]正则化快速最小二乘时域差分算法的研究[D]. 李论通.北京化工大学 2016
本文编号:2940395
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图1-1强化学习结构框图??Fig.1-1?Block?diagram?of?reinforcement?learning??
另一部分是策略提升,一般来说策略提升利用贪婪法则,也就是寻找最大值函数,??这个值函数所对应的策略就是提升的策略。这一步相对较简单。策略评价和策略提升??依次迭代进行,直到算法收敛,我们就得到了最优的策略,其过程如图2-2。??'??^提升的策略????JT??^?r??策略提升?策略评价??i?k??值函数????^???Q1??图2-2强化学习策略迭代示意图??Fig.2-2?Policy?iteration?for?reinforcement?learning??总的来说,策略if价给策略迭代提供了对于给定的策略的值函数。而策略提升保??证了选出的策略比原始策略更好。??2.2.4强化学习中目标函数??在强化学习中,一些目标函数用来实现梯度下降作用,使得参数得到修正。最常??见的目标函数就是均方误差(Mean-square?Error,?MSE)。均方误差是指通过值函数逼??近器得到的值函数的估计值和它的真实值的差的二范数,表示如下:??MSE(0)?=?||F,-F||^vtjDv?(2-6)??其中DeRis|x|s|是对角阵,表示向量二范数的平方。由于在强化学习中,真实的值??函数是不知道的。因此,上式的计算无法真正实现。??但是我们知道值函数满足贝尔曼方程
我们提出一种自适应的带有梯度修正作用的递推最小二乘时域差分算法??的神经网络结构,在本算法中我们利用神经网络结构实现RC算法,称为自适应RC??网络。自适应的RC网络的结构如图3-1所示,在本算法中主要由两部分组成,一部??分是强化学习部分,在强化学习部分使用RC算法,通过网络结构的形式来求解值函??数和TD误差中的线性参数向量,对值函数和TD误差进行近似求取;另一部分就是??网络学习部分,主要是指网络中的参数学习,包括网络中基函数的宽度以及网络权值??的更新。在这部分中,TD误差反传来调节网络参数。本算法使用的网络结构是一个??三层RBF祌经网络,具体各层结构如图3-1。??第一层是输入层。在本层,每个输入节点为输入的状态或者状态动作的集合以及??回报值,同时,输入节点数等于输入特征状态的维数。输入数据直接传到下一层。??19??
【参考文献】:
期刊论文
[1]Approximate policy iteration:a survey and somenew methods[J]. Dimitri P.BERTSEKAS. Journal of Control Theory and Applications. 2011(03)
[2]基于状态-动作图测地高斯基的策略迭代强化学习[J]. 程玉虎,冯涣婷,王雪松. 自动化学报. 2011(01)
硕士论文
[1]正则化快速最小二乘时域差分算法的研究[D]. 李论通.北京化工大学 2016
本文编号:2940395
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2940395.html