本发明涉及一种基于DPPO的虚实融合栅格舵模型参数优化方法,属于航天器设计参数优化技术领域。本发明使用BP神经网络训练的代理模型替代栅格舵系统物理仿真模型,可以快速地生成数据、完成预测,使用Adams物理仿真模型预测20000组数据需要耗时越20小时,使用代理模型仅需1.6秒。使用DPPO深度强化学习对栅格舵系统参数进行优化,在计算梯度时通过更新前后地参数对比,限制更新步长,解决了基于行为地强化学习的步长敏感问题,使得训练更易收敛。同时,使用分布式的方式,用多组线程与环境交互,产生训练数据,在提升数据收集速度的同时,降低了网络间的相关性,使得训练更容易收敛,更易实现对栅格舵系统的参数优化。
声明:
“基于DPPO的虚实融合栅格舵模型参数优化方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)