本申请涉及一种强化学习模型处理方法、装置、计算机设备和存储介质。所述方法包括:当虚拟环境中多个不同阵营的虚拟角色之间进行交互时,获取交互所产生的交互数据;通过图形处理器和中央处理器分别对所述交互数据进行特征提取,并将所提取的特征进行合并得到角色特征;通过强化学习模型对所述角色特征进行特征处理,预测出每个虚拟角色对应的交互行为和奖励值;基于包括所述角色特征、所述交互行为和所述奖励值的训练样本,对与所述强化学习模型关联的模型进行迭代训练;当训练所得的模型达到训练停止条件时,将训练所得的模型作为最终的强化学习模型。采用本方法能够训练得到的强化学习模型的精度。
声明:
“强化学习模型处理方法、装置、计算机设备和存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)