本发明涉及目标搜索技术领域,具体涉及训练动作规划模型及目标搜索的方法,方法包括:获取当前测试图像、目标对象以及当前步数;获取预测的边界框以及目标对象的边界框;基于预测的边界框以及目标对象的边界框的大小关系,确定当前动作规划的奖赏;将当前测试图像、目标对象以及当前步数输入动作规划模型,预测出下一步动作的概率分布及其对应的奖赏;根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏,对策略网络以及价值网络的进行强化学习。在预测的边界框以及目标对象的实际边界框的基础上,确定当前动作规划的奖赏;利用预测结果对策略网络以及价值网络进行强化学习,以使得策略网络以及价值网络达到最优,具有较高的搜索效率。
声明:
“训练动作规划模型的方法及目标搜索方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)