本申请公开了一种视频数据处理方法、装置、电子设备和计算机可读介质。该方法包括:基于预设的奖励预测模型,对视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成任务环境的分布激励;基于预设的强化学习模型,根据任务环境,生成任务指令,根据任务指令指导执行主体执行目标任务,得到任务结果;基于预设的奖励评估函数,对任务结果进行评估,生成任务激励,并根据任务激励,对奖励预测模型的参数进行调整;根据分布激励,对强化学习模型的参数进行调整。籍此,通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整,优化奖励预测模型;通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整,优化强化学习模型。
声明:
“视频数据处理方法、装置、电子设备和计算机可读介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)