当前位置:主页 > 管理论文 > 统计学论文 >

马尔可夫决策过程自适应决策的进展

发布时间:2018-04-04 21:10

  本文选题:马尔可夫过程 切入点:部分可观马尔可夫过程 出处:《控制与决策》2001年01期


【摘要】:在介绍一般马尔可夫决策过程的基础上 ,分析了当前主要马尔可夫过程自适应决策方法的基本思想、具体算法实现以及相应结论 ,总结了现有马尔可夫过程自适应决策算法的特点 ,并指出了需要进一步解决的问题
[Abstract]:Based on the introduction of the general Markov decision process, this paper analyzes the basic ideas of the main adaptive decision methods of the Markov process, the realization of the specific algorithm and the corresponding conclusions.This paper summarizes the characteristics of the existing adaptive decision making algorithms for Markov processes, and points out the problems that need to be solved further.
【作者单位】: 上海交通大学智能工程研究所!上海200030 上海交通大学智能工程研究所!上海200030
【基金】:国家自然科学基金项目! (6 98740 2 5 )
【分类号】:N945.25

【参考文献】

相关期刊论文 前5条

1 董泽清,宋京生;无界报酬半马氏折扣模型的初等方法[J];科学通报;1987年11期

2 宋京生,董泽清;连续时间总报酬马氏决策规划[J];科学通报;1987年16期

3 胡奇英;状态部分可观察的无界报酬马氏决策规划[J];数理统计与应用概率;1998年03期

4 伍从斌,张继红;报酬无界的连续时间折扣马氏决策规划[J];应用概率统计;1997年01期

5 郭先平;一般MDP最优策略的唯一性[J];应用概率统计;1998年03期

【共引文献】

相关期刊论文 前10条

1 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期

2 杨萍;毕义明;孙淑玲;;具有自主决策能力的机动单元智能体研究[J];兵工学报;2007年11期

3 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期

4 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期

5 王华;崔晓婷;刘向东;张宇河;;基于Q-学习的卫星姿态在线模糊神经网络控制[J];北京理工大学学报;2006年03期

6 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期

7 童亮;陆际联;;Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction[J];Journal of Beijing Institute of Technology(English Edition);2006年02期

8 吴洪岩;刘淑华;张嵛;;基于RBFNN的强化学习在机器人导航中的应用[J];吉林大学学报(信息科学版);2009年02期

9 杨银贤;Multi-agent reinforcement learning using modular neural network Q-learning algorithms[J];Journal of Chongqing University;2005年01期

10 杨东,殷苌茗,陈焕文,吴柏森;基于Q-学习的非线性控制[J];长沙电力学院学报(自然科学版);2003年01期

相关会议论文 前10条

1 毛剑琳;向凤红;冯丽辉;;一种改进的IEEE802.15.4自适应实时带宽分配策略[A];第二十七届中国控制会议论文集[C];2008年

2 马丽;刘惟一;;多个交通路口调度博弈模型及其均衡求解的增强学习算法[A];第二十七届中国控制会议论文集[C];2008年

3 ;Complexity Analysis of Quantum Reinforcement Learning[A];第二十九届中国控制会议论文集[C];2010年

4 胡奇英;;非时齐马氏决策规划:新的无界假设[A];1993中国控制与决策学术年会论文集[C];1993年

5 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年

6 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年

7 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年

8 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中国控制与决策会议论文集(3)[C];2009年

9 ;An Adaptive Inventory Control for a Supply Chain[A];2009中国控制与决策会议论文集(3)[C];2009年

10 谢志华;郑应平;;基于再励学习的排队系统优化控制[A];1995年中国控制会议论文集(下)[C];1995年

相关博士学位论文 前10条

1 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年

2 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年

3 黄正行;临床过程分析与优化技术研究[D];浙江大学;2010年

4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年

5 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年

6 孙祥;大学生就业区域流向及引导策略研究[D];合肥工业大学;2011年

7 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年

8 李s,

本文编号:1711693


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/1711693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64d38***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com