本发明公开了一种基于强化学习算法SAC的目标跟踪方法、装置及存储介质,方法包括:获取视频数据;在视频数据的当前帧中确定搜索区域位置和大小;判断当前帧是否为第一帧;响应于当前帧非第一帧,将当前帧输入预训练好的actor网络模型进行特征提取,得到输出的预测框,根据所述预测框对目标进行跟踪;其中所述actor网络模型的训练方法,包括:通过第一帧对actor、target_actor网络进行初始化,根据经验池中存储的数据,通过actor、critic网络计算动作,计算actor、critic1、critic2网络损失,利用强化学习SAC算法更新网络权值。将目标跟踪问题转化为强化学习算法中在线决策的问题,并且本发明只需要少量数据集,充分利用现有技术,提升训练速度。
声明:
“基于强化学习算法SAC的目标跟踪方法、装置及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)