一种方法(500)包括,获得训练样本(102)的集合。在多个训练迭代的每个训练迭代期间,该方法包括,从训练样本的集合中采样训练样本的批次。该方法包括,对于每个训练样本,使用数据值估计器(120)来确定选择概率(106)。训练样本的选择概率是基于数据值估计器的估计器参数值(122)。该方法还包括,基于每个训练样本的选择概率从训练样本的批次中选择训练样本的子集,以及使用具有训练样本的子集的预测器模型(142)来确定性能测量(144)。该方法还包括,基于性能测量来调整预测器模型的模型参数值(143),以及基于性能测量来更新数据值估计器的估计器参数值。
声明:
“使用强化学习的数据评估” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)