本发明提供一种基于模态对齐的动作提示的视觉语言导航系统及方法,系统包括动作提示集产生模块,输入指令到动作提示集产生模块,智能体在导航开始前从动作提示库中检索与指令相关的动作提示集;模态对齐动作提示的视觉语言导航模块,动作提示集通过提示编码模块,输出提示特征与文本编码模块的输出指令特征连接在一起;基于提示的指令特征和视觉编码模块的输出视觉特征被提供给多层transformer用来做动作决策。优化学习模块,即模态对齐损失模块和连续一致性损失模块,实现有效的动作提示学习;本发明重点提出了显式的模态对齐的动作提示,以提高智能体导航的准确性和不同环境中的泛化能力。
声明:
“基于模态对齐的动作提示的视觉语言导航系统及方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)