实施方式利用深度强化学习来训练策略神经网络,该策略神经网络参数化策略,以用于基于当前状态来确定机器人动作。这些实施方式中的一些从同时操作的多个机器人收集经验数据。每个机器人在作为对执行任务的每次探索并且各自在情节期间基于策略网络和策略网络的当前策略参数被引导的情节的迭代执行期间生成经验数据的实例。所收集的经验数据在情节期间生成,并用于通过基于一批所收集的经验数据迭代地更新策略网络的策略参数来训练策略网络。此外,在由机器人执行的多个情节中的每一个情节的执行之前,可以提供(或检索)当前更新的策略参数,以供情节的执行时利用。
声明:
“机器人操纵的深度强化学习” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)