本发明提出基于AlphaGo Zero改进的国际象棋博弈方法,扩展了AlphaGo Zero方法在人机博弈领域的应用范围,属于机器人科技娱乐领域。其包括以下步骤:采用能有效避免梯度弥散并能够获得最优位置收敛的CNN、ResNet以及全连接层在内的混合网络结构,并使用一个训练网络同时输出策略与估值;2)采用强化学习策略,通过使用自我博弈(Self‑Play)产生的数据进行训练,解决序贯结构的数据训练规模较大的问题,在博弈过程中进行模型优化;3)神经网络训练优化模型,定义损失函数并选择相应的优化器进行向减小损失方向的迭代更新;4)网络模型评估,使用训练一段时间后的新模型与训练前的模型进行对弈,根据胜负局数获取当前模型的性能以判定是否进行模型的迭代;5)采用第三方软件进行可视化交互博弈测试与评估。
声明:
“基于AlphaGo Zero改进的国际象棋博弈方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)