本发明提供一种基于参数化量子线路的强化学习策略梯度方法,属于量子计算技术领域。因为该方法将输入状态密度矩阵输入至量子决策神经网络进行演化,从而输出决定动作对应的概率,因此,该方法相比传统的强化学习策略梯度算法需要训练的参数大幅减少,并且增加了智能体的优化方向,同时在测量后的输出数据设置全连接层还可以使得输出动作的输出维度可调,灵活性更强。
声明:
“基于参数化量子线路的强化学习策略梯度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)