本发明公开了一种面向深度强化学习的策略异常检测方法和装置,包括:利用采集的状态样本对DDPG网络进行强化学习;构建包含行动者网络和判别器的模仿学习网络,利用采集的状态样本和专家状态动作对对模仿学习网络进行训练;利用参数优化的DDPG网络基于输入的状态样本生成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为动作未受到攻击;当判别结果为0时,认为状动作存在异常;当动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,以指导DDPG网络在后续阶段的强化学习过程中做出正确决策。
声明:
“面向深度强化学习的策略异常检测方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)