用于检测中间强化学习目标的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:获得多个演示序列,每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列;对于每个演示序列,通过图像处理神经网络处理演示序列中的每个图像,以确定图像的相应的特征集合的特征值;根据演示序列确定将强化学习任务分区为多个子任务,其中,每个演示序列中的每个图像被分配给多个子任务中的相应子任务;并且,根据演示序列中的图像的特征值,确定多个子任务中的每一个的相应的区别特征集合。
声明:
“中间强化学习目标的无监督的检测” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)