本发明公开了基于强化学习和对比学习的图像语义理解及文本生成。该任务的挑战在于如何用表达简练而内容丰富的文本准确的描述图像内容。目前的大多数方法是以图像标题来描述图像,而图像标题过于简单的特点导致了存在描述不全面的情况。而目前以诗歌描述图像的新任务又缺乏带标注的数据集。本发明通过诗歌来描述图像内容,利用诗歌表达简练、语义丰富并具有艺术性的特点,结合强化学习和对比学习设计了一种无监督创作多样化诗歌的方法。提出的方法以生成式对抗网络为基本框架,生成器基于图像创作诗歌,判别器预测诗歌的真实性。通过设计的古典概念词奖励机制和跨模态特征对齐机制来强化诗歌与图像的一致性。并设计多样性奖励机制来引导模型创作多样化的诗歌。实验结果证明提出的方法在相互独立的图像和诗歌数据集上训练后,模型能够创作多样化的诗歌来描述图像。
声明:
“基于强化学习和对比学习的图像语义理解及文本生成” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)