本发明实施例提供了一种基于认知的智能体强化学习方法、装置、系统、计算机设备及计算机可读存储介质。属于机器学习技术领域,智能体通过获取外部环境反馈的当前状态;根据当前状态,通过动作预测器预测其它智能体在本回合中将会采取的预测动作;根据预测动作及当前状态,通过动作评估器对候选动作表中包含的第一预设候选动作进行评估,并结合预设策略选择出自身智能体在本回合中将采取的评估动作;发送评估动作至外部环境,以使外部环境根据评估动作和其它智能体的实际动作确定交互结果;接收外部环境返回的交互结果;根据交互结果,更新动作预测器和动作评估器以实现自身智能体强化学习,由于评估动作具有针对性,提高了应对的准确性。
声明:
“基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)