面向飞行器自主着舰问题的行动者-评论家算法模型研究与实现
发布时间:2020-06-09 17:34
【摘要】:舰载机是航空母舰的重要战斗力量,舰载机在航母上的安全起降始终都是航母/舰载机系统顺利完成战斗任务的重点与难点。我国目前已经实现了舰载机的人工起降,但是人工起降技术高度依赖良好的气象条件,并且着舰指挥官的培养难度较大等因素制约了着舰技术的发展。对于自动着舰技术,我国尚处于理论研究阶段。舰载机着舰是一个顺序的决策控制问题,而强化学习在最优控制与顺序决策问题上有着成功应用的先例与天然优势。本文为探索强化学习在航母舰载机领域的应用,将深度强化学习的方法应用于自动着舰控制,研究了面向着舰问题的行动者-评论家算法。论文主要工作如下:(1)设计了面向着舰问题的行动者-评论家算法,针对舰载机着舰任务的特定业务背景,在没有控制模型和动力学模型的情况下,采用行动者-评论家算法和确定性策略梯度思想,对舰载机自动着舰过程的状态空间、动作空间以及奖励函数进行了研究,给出了符合问题背景的马尔科夫决策过程模型。(2)针对着舰过程中奖励稀疏的问题,本文提出了一个奖励重塑模型,有效解决了着舰过程中的奖励稀疏问题。首次利用仿真飞行软件X-Plane作为强化学习实验环境,以F/A-18型舰载机为例实现了平稳飞行并成功着舰,形成了一套完整的演示平台解决方案。(3)提出了行动者-适应者-评论家算法,提高了算法在非稳态环境下的泛化性。本文在行动者-评论家算法框架的基础上进行了针对性的改进,加入的适应者能够对行动者输出的动作给予修正,以适应环境的变化。为了测试算法对非稳态环境的适应性,本文对强化学习集成环境中智能体的物理模型进行了不同程度的修改,以模拟环境的变化,在Gym与MoJoCo环境下的测试结果验证了本文提出算法的有效性,同时对环境的变化也有较好的适应性。此外,本文还将改进的算法应用于仿真环境中舰载机的自动着舰任务,也显示出了一定的适应性。本文实现了以专业飞行软件X-plane为仿真环境的强化学习自动着舰算法,并且提出了一个能有效适应环境变化的强化学习算法,算法在集成强化学习环境和专业飞行软件中进行了非稳态环境的测试,显示出了良好的环境适应性。
【图文】:
纪80年代汇集在一起产生了现代强化学习领域。逡逑2.2强化学习的基本概念逡逑一个完整的强化学习模型如图2-1所示,在该模型中必备的两部分是环境与智逡逑能体。智能体可以观察环境,通过观察到的结果在某种策略下执行动作。对于智能逡逑体来说,在每个时间片先观察状态0,,给出执行动作最后接收奖励信号及。逡逑对于环境来说,,在每个时间片接收智能体发出动作岣+1,然后给出下一个观察状态逡逑0,+1,最后给出奖励信号&+1。对于一个智能体来说通常由以下几个部分组成:逡逑(1)
时刻的状态,做出决策,同时获得环境的奖励,环境接收智能体发出的动作然后转逡逑移到新的状态,此过程一直持续到终止状态,在某些任务中也可能不存在终止状态。逡逑马尔科夫决策过程如图2-2所示。逡逑在马尔科夫决策过程中,智能体的目标是最大化总回报其逡逑中折扣因子用来区分即时奖励与未来回报的重要性。当7接近于0的时逡逑候,代表智能体更加看重当前的即时奖励;当7接近于1时,代表智能体更加注重逡逑未来的奖励来做出决策。当智能体遵循某个策略;r时,状态-行动值函数(QValue逡逑Function)和状态值函数(Value邋Function)定义如式(2-3)和(2-4)。逡逑么(5,a)=EJG,逦=a]逦(2-3)逡逑(2-4)逡逑(逡逑n邋'邋i智能体逡逑I逦i逦;逦;逦:逡逑*逦4逦i逦i逦i逡逑B“。mmi邋:w11,41邋-逡逑r,邋wSBSm^m邋r2逦ri邋^WwIWbI逦r^j逡逑l——逦?—_逦逡逑图2-2强化学习的马尔科夫链逡逑Figure邋2-2邋The邋Markov邋chain邋of邋reinforcement邋learning逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:V271.492;TP301.6
本文编号:2705021
【图文】:
纪80年代汇集在一起产生了现代强化学习领域。逡逑2.2强化学习的基本概念逡逑一个完整的强化学习模型如图2-1所示,在该模型中必备的两部分是环境与智逡逑能体。智能体可以观察环境,通过观察到的结果在某种策略下执行动作。对于智能逡逑体来说,在每个时间片先观察状态0,,给出执行动作最后接收奖励信号及。逡逑对于环境来说,,在每个时间片接收智能体发出动作岣+1,然后给出下一个观察状态逡逑0,+1,最后给出奖励信号&+1。对于一个智能体来说通常由以下几个部分组成:逡逑(1)
时刻的状态,做出决策,同时获得环境的奖励,环境接收智能体发出的动作然后转逡逑移到新的状态,此过程一直持续到终止状态,在某些任务中也可能不存在终止状态。逡逑马尔科夫决策过程如图2-2所示。逡逑在马尔科夫决策过程中,智能体的目标是最大化总回报其逡逑中折扣因子用来区分即时奖励与未来回报的重要性。当7接近于0的时逡逑候,代表智能体更加看重当前的即时奖励;当7接近于1时,代表智能体更加注重逡逑未来的奖励来做出决策。当智能体遵循某个策略;r时,状态-行动值函数(QValue逡逑Function)和状态值函数(Value邋Function)定义如式(2-3)和(2-4)。逡逑么(5,a)=EJG,逦=a]逦(2-3)逡逑(2-4)逡逑(逡逑n邋'邋i智能体逡逑I逦i逦;逦;逦:逡逑*逦4逦i逦i逦i逡逑B“。mmi邋:w11,41邋-逡逑r,邋wSBSm^m邋r2逦ri邋^WwIWbI逦r^j逡逑l——逦?—_逦逡逑图2-2强化学习的马尔科夫链逡逑Figure邋2-2邋The邋Markov邋chain邋of邋reinforcement邋learning逡逑
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:V271.492;TP301.6
【参考文献】
相关期刊论文 前4条
1 李耀宇;朱一凡;杨峰;贾全;;基于逆向强化学习的舰载机甲板调度优化方案生成方法[J];国防科技大学学报;2013年04期
2 张涛;吴汉生;;基于神经网络的强化学习算法实现倒立摆控制[J];计算机仿真;2006年04期
3 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期
4 李晓萌,杨煜普,许晓鸣;基于递阶强化学习的多智能体AGV调度系统[J];控制与决策;2002年03期
相关硕士学位论文 前4条
1 刘珏;基于逆强化学习的舰载机牵引车路径规划研究[D];哈尔滨工程大学;2017年
2 丁明刚;基于多智能体强化学习的足球机器人决策策略研究[D];合肥工业大学;2017年
3 胡占双;无人机飞行姿态检测及控制研究[D];沈阳航空航天大学;2013年
4 邢关生;基于强化学习算法的电梯动态调度策略的研究[D];天津大学;2005年
本文编号:2705021
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/2705021.html