本发明公开了一种基于视觉‑语义特征的视频中行为识别方法,其首先利用三维卷积神经网络提取短期时空视觉特征,避免了使用光流或密集轨迹法带来的高计算复杂度;然后利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息,构造人‑物体空间位置特征并与时空视觉特征进行特征融合,利用额外的语义信息提高视频中交互行为的识别准确率;最后,在提取的具有通用性的短期时空视觉特征的基础上,通过循环神经网络提取特异性的长期行为特征提高行为识别准确率。本发明能够解决现有针对视频的行为识别方法中存在的计算复杂度高、行为识别准确率低、以及无法提取贯穿整个视频时间维度的长期行为特征的技术问题。
声明:
“一种基于视觉-语义特征的视频中行为识别方法和系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)