本发明实施例提供了一种智能体的强化学习模型训练方法及系统,上述方法包括:接收所述环境服务器发送的任意一个仿真环境包括的各个智能体的经验数据;将相关联的智能体的经验数据进行混合并存储于预设经验池中;获取混合后的经验数据作为样本数据,并基于所述样本数据触发待训练强化学习模型的训练,得到输出的预测运行策略信息;将所述预测运行策略信息发送至所述环境服务器,以使所述环境服务器中对应的仿真环境执行对应的预测运行策略;如果达到预设的模型训练结束条件,将当前的待训练强化学习模型确定为训练得到的目标强化学习模型训练。即本发明实施例提出了一种新的支持多智能体、多仿真环境的高效的强化学习模型训练框架。
声明:
“智能体的强化学习模型训练方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)