本发明公开了一种基于多级预测架构的视频描述方法及系统,属于深度学习中计算机视觉以及自然语言处理领域,本发明要解决的技术问题为如何生成细粒度的语言描述,避免模型复杂度提高造成梯度消失,同时从根本上解决曝光偏差的难题,避免发生错误累计,造成最终结果的失效,采用的技术方案为:该方法步骤如下:S1、获取原始数据;S2、使用nltk对描述进行筛选分词;S4、预训练YOLO;S5、通过多层解码器LSTM及堆叠注意力机制得到语言描述;S6、将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。该系统包括原始数据获取模块、筛选分词模块、单词表制作模块、YOLO预训练模块、语言描述获取模块及梯度计算模块。
声明:
“基于多级预测架构的视频描述方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)