本发明涉及追捕技术分析技术领域,具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明逃跑者的控制量并不是确定性的,而是根据追捕者的信息给出的控制量,即逃跑者与追捕者进行了交互,这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的,追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练,这样等到的已训练追捕强化学习模型应用到实际追逃过程中,即便逃跑者针对追捕者改变了逃跑策略,追捕者依然能够精准地实现对逃跑者的追捕,从而增加了已训练的追捕强化学习模型的鲁棒性。
声明:
“用于形成追捕策略的强化学习模型训练方法和训练装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)