当前位置:主页 > 管理论文 > 领导决策论文 >

基于强化学习的游戏环境中智能体决策模型的设计研究

发布时间:2025-05-29 07:03
  目前大多数都是使用以值为基础的Q函数如DQN强化学习算法进行研究,减少了对更加直观的以策略方法为基础的强化学习算法的研究。且在游戏领域中,连续高维的状态动作分布是决策问题应用强化学习所面临的一个巨大困难,为解决这一问题,本文将通过基础方法策略搜索方法——确定性策略梯度算法作出研究,并分析确定性策略梯度算法的优缺点,对于其缺陷进行改进,提出双剪切策略梯度算法改进模型,并探讨不同的改进部分对实验结果的影响。最后在游戏平台上选择四个连续高维的任务进行训练,以证明改进算法在解决此问题的性能提升水平。本文主要进行了五个部分的阐述。(1)首先对强化学习的本质问题与发展应用领域进行了简明介绍,接着介绍了基础的方法——深度学习,阐述了其发展历史与现状,最后对深度强化学习DRL的发展进行了简述;(2)分析了强化学习的数学模型架构——马尔科夫决策过程,和贝尔曼最优解,并引出了强化学习的基础方法,值迭代方法和策略迭代方法,然后分析了无模型环境中基于值迭代法和策略迭代法的两种强化学习策略求解方法——蒙特卡洛方法与时序差分法。(3)根据前一章的策略迭代和时序差分方法,提出需要改进的基础方法确定性策略梯度算法,结合...

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 深度学习的起源与发展
        1.2.2 深度强化学习DRL的进展
    1.3 论文的主要工作与结构
第二章 基于DRL的决策算法框架
    2.1 强化学习问题描述架构
        2.1.1 强化学习问题模型
        2.1.2 数学模型——马尔科夫决策过程
        2.1.3 贝尔曼方程最优解
    2.2 动态规划
    2.3 无模型预测学习方法
        2.3.1 Monte-Carlo强化学习
        2.3.2 Temporal-Difference强化学习
    2.4 本章小结
第三章 基于确定性策略与AC架构的系统建模
    3.1 确定性深度策略方法
        3.1.1 演员-评论者(Actor-Critic)架构
        3.1.2 确定性策略梯度算法
    3.2 双剪切策略梯度算法改进模型
        3.2.1 Actor动作选择策略
        3.2.2 AC架构中的高估偏差
        3.2.3 Critic双剪切Q网络
        3.2.4 目标网络与延迟策略更新
        3.2.5 目标策略平滑正则化
        3.2.6 双剪切策略梯度算法
    3.3 本章小结
第四章 游戏平台系统模型实验
    4.1 实验平台
    4.2 实验环境
    4.3 实验参数配置
    4.4 实验结果及分析
        4.4.1 高估偏差分析
        4.4.2 目标网络与延迟更新分析
        4.4.3 游戏得分结果分析
    4.5 本章小结
第五章 总结与展望
    5.1 总结
    5.2 后续工作展望
致谢
参考文献
攻读硕士学位期间取得的成果



本文编号:4048908

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/4048908.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户91260***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com