包括在计算机存储介质上编码的计算机程序的用于训练强化学习系统的方法、系统和装置。该方法包括:训练动作选择策略神经网络,并且在动作选择神经网络的训练期间,训练一个或多个辅助控制神经网络和奖励预测神经网络。辅助控制神经网络中的每个辅助控制神经网络被配置为接收由动作选择策略神经网络生成的相应的中间输出,并生成对于对应的辅助控制任务的策略输出。奖励预测神经网络被配置为接收由动作选择策略神经网络生成的一个或多个中间输出并生成对应的预测奖励。训练辅助控制神经网络中的每个辅助控制神经网络和奖励预测神经网络包括调整相应的辅助控制参数、奖励预测参数和动作选择策略网络参数的值。
声明:
“利用辅助任务的强化学习” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)