本申请涉及数据分析技术领域,尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质,包括:获取原始数据并对原始数据进行预处理,得到样本数据;获取目标值,提取样本数据中的实际值,将目标值与实际值入参到预设的奖惩函数中进行计算,得到实际值的评分权重;获取样本数据对应的多个备选方案数据,将各备选方案数据和实际值的评分权重导入到用于强化学习模型中进行评分后,得到各备选方案数据的初始评分;根据预设的加分策略对初始评分进行处理后得到备选方案数据的最终评分;根据预设的业务逻辑对各备选方案数据进行过滤,以过滤后的备选方案数据中最终评分最高项作为原始数据的目标方案数据。提升了信息处理的速度和准确性。
声明:
“基于强化学习的信息处理方法、装置、设备和存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)