本发明涉及一种基于深度强化学习的飞行器探测传感器资源调度方法,属于计算机应用技术领域,该方法为调度模型构建、调度策略的离线训练和飞行器探测资源调度的在线决策三个步骤。飞行器探测资源调度模型的构建是在考虑各类调度影响因素的前提下,将飞行器探测资源调度过程抽象为马尔可夫决策过程,明确调度问题中的要素在马尔可夫决策模型中的具体表示;调度策略的离线训练是在深度强化学习理论的基础上建立Critic与Actor网络,将飞行器探测调度环境与其马尔可夫决策模型交互过程中获取的数据作为网络输入进行网络参数的更新与策略的训练。本发明有效提高了探测资源调度的自主决策能力,并解决飞行器探测过程中资源分配不合理的问题。
声明:
“基于深度强化学习的飞行器探测传感器资源调度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)