本发明公开了一种基于强化学习防御渗透攻击的方法及装置、电子设备,该方法包括:(1)将渗透测试过程建模为马尔可夫决策过程,其中所述马尔可夫决策过程包括状态、动作、奖励值;(2)训练智能体,其中所述智能体作为渗透攻击方,训练目标为生成当前最优渗透攻击路径过程;(3)将网络环境中敏感主机的价值进行符号翻转,并设置获得目标敏感主机的Root权限时渗透攻击的回合不结束,将渗透攻击的回合的结束条件修改为回合中训练步数达到了预定阈值;(4)将对主机价值的修改更新到步骤(1)的奖励值中,利用训练好的智能体对步骤(3)中的网络环境进行防御训练,重复防御训练的过程直至训练回合数达到预定阈值,得到防御渗透攻击的策略。
声明:
“基于强化学习防御渗透攻击的方法及装置、电子设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)