本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。
声明:
“基于无锚框和提议框的场景文字检测方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)