本发明提供了一种基于多智能体强化学习的恶意软件检测方法及装置,其中方法包括:S1对恶意软件样本进行提取PE特征的操作;S2检测智能体对PE特征进行检测,如果检测结果为恶意则执行S3,如果检测结果为良性则执行S5;S3操作智能体对恶意软件进行变体操作;S4将经过变体操作的恶意软件变体作为恶意软件样本,返回执行S1;S5判断检测智能体是否成功检测出恶意软件,如果未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作;S6如果训练结束,收敛模型,存储检测智能体的检测策略以及操作智能体的操作策略。
声明:
“基于多智能体强化学习的恶意软件检测方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)