本发明提供了一种基于蒙特卡洛采样的棋牌强化学习方法、系统及介质,包括,获取玩家的当前状态;确定玩家在所述当前状态下的多个预测动作;对于所述多个预测动作中的每一个:将所述当前状态和预测动作输入棋牌模型,模型输出所述预测动作对应的第一评分,其中,所述棋牌模型通过基于蒙特卡洛采样得到的训练样本训练得到;将最大的第一评分所对应的预测动作作为玩家的当前动作,使得可以将模型的输出变成1维,便于结果收敛。
声明:
“基于蒙特卡洛采样的棋牌强化学习方法、系统及介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)