刘家安;白雪剑;汪旭;崔晓玉;针对水下机器人复杂环境下的路径规划问题,提出一种基于混合动作选择策略的HAS-SAC(hybrid-action-selection soft actor-critic, HAS-SAC)算法。首先,构建融合人工势场(artificial potential field, APF)与快速扩展随机树(rapidly-exploring random tree, RRT)方法的协同优化混合动作选择策略,通过动态熵权系数实现专家策略与强化学习策略的渐进式融合。其次,减少传统RRT算法的无效采样区域,解决APF算法中固有的局部极小值问题,提升软演员-评论家(soft actor-critic, SAC)算法的训练收敛速度;且随着SAC策略网络的成熟,实现混合动作选择策略向自主决策模式过渡。最后,仿真对比实验表明,相较于深度确定性策略梯度(deep deterministic policy gradient, DDPG)、双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)及SAC算法,所提HAS-SAC算法不仅收敛速度最快,且所规划路径运动距离最短、运动时间最少,综合性能具有显著优势。
2025年06期 v.45;No.226 351-358+364页 [查看摘要][在线阅读][下载 1622K] [下载次数:22 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ]