本发明的公开了一种基于神经元覆盖率的深度强化学习鲁棒训练方法和装置,包括以下步骤:(1)搭建智能驾驶环境,从智能驾驶环境中采集状态数据对深度强化学习模型训练,直到达到设定回报值为止;(2)利用训练好的深度强化学习模型在环境中运行,提取多轮的状态动作对;(3)构建用于根据历史状态动作对序列预测未来时刻状态动作对序列的预测器和用于对状态动作对进行质量分类的分类器,并利用提取的状态动作对训练预测器和分类器;(4)依据定义的对抗采样策略,根据状态动作对质量采样状态动作对并进行深度强化学习模型的再训练,以提高深度强化学习模型的鲁棒性。
声明:
“基于神经元覆盖率的深度强化学习鲁棒训练方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)