本发明公开了一种面向强化学习的检测防御异常数据方法和装置,包括以下步骤:采集场景a下小车正常驾驶状态作为样本数据,对样本数据采用PCA降维处理,得到前n个特征值的累计贡献率α以及变换矩阵P;基于DDPG算法建立场景a下自动驾驶训练模型,预训练自动驾驶训练模型,将状态转换过程存入经验回放缓冲区D;采集场景a下自动驾驶训练模型训练过程中的状态s
t,利用变换矩阵P对状态s
t降维处理,计算前n个特征值的累计贡献率α’;若||α‑α’||≥∈,则判定s
t异常,向对应的奖励值r
t增加惩罚项
并将更新后的状态转换过程存储在经验回放缓冲区D中;根据更新后的奖励值计算损失函数,利用损失函数更新主网络的参数。
声明:
“面向强化学习的检测防御异常数据方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)