本发明提供一种基于视觉和语义特征协作与强化学习的视频摘要方法,包括将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络提取语义特征和视觉显著性特征;经过Bi‑LSTM模型处理预测出各视频帧被选择为关键帧的初始概率;根据视觉显著性特征提取出空间注意力得分,归一化后利用调整因子对Bi‑LSTM模型产生的初始概率进行调制得到调制概率;根据调制概率,确定语义特征与视觉显著性特征均重要的关键帧,实现VSFB模型;将原始视频分为多个独立片段clip,计算选择的关键帧与其他帧之间索引调整的差异性奖励和代表性奖励,依据强化学习奖励机制,动态调整初始概率,加强VSFB模型在视频摘要中的学习,最后得到理想模型,实现从任意待处理视频中的摘要提取。
声明:
“基于视觉和语义特征协作与强化学习的视频摘要方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)