本发明提供了一种基于元强化学习并行训练算法的无人机飞行决策方法,首先构建无人机飞行控制模型;然后依据马尔科夫决策过程构建无人机飞行决策的状态空间、动作空间和奖励函数;接下来构建存放元强化学习算法训练样本数据的多任务经验池;再定义元强化学习算法参数并在多个环境并行训练实现无人机元强化学习决策模型;最后随机初始化新的飞行环境和无人机状态,测试基于元强化学习算法的无人机飞行决策模型,评价飞行决策性能。本发明通过在多个环境中对策略进行训练以解决SAC算法泛化性能不足的问题,能够整体优化无人机飞行决策策略,在新的环境中经过少步训练便可以收敛,能够有效提升策略的泛化能力和通用性。
声明:
“基于元强化学习并行训练算法的无人机飞行决策方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)