包括在计算机存储介质上编码的、用于使用强化学习来选择动作名单的计算机程序的方法、系统和装置。其中一种方法包括接收表征环境当前状态的观测;通过使用深度神经网络处理所述观测和多个候选动作名单来选择动作名单,其中每个候选动作名单包括来自动作集合的相应多个动作,并且其中深度神经网络被配置为对于每个动作名单处理观测和该候选动作名单中的动作以生成该候选动作名单的名单Q值,该值是响应于观测从提供给动作选择器的所述候选动作名单产生的长期奖励的估计;以及响应于观测将选择的动作名单提供给动作选择器。
声明:
“使用强化学习选择动作名单” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)