本发明公开了一种意图驱动的强化学习路径规划方法,主要步骤包括:1、数据采集器获取监测网络的状态;2、根据环境障碍物、传感器节点和数据采集器的位置选择数据采集器的转向角;3、根据ε贪心策略选择数据采集器的速度、目标节点和下一目标节点作为动作;4、数据采集器根据选择的转向角和速度确定下一时隙的位置;5、根据数据采集器和传感器节点的意图得到奖赏和惩罚,并更新Q值;6、重复执行步骤1至步骤5,直至到达终止状态或收敛条件;7、数据采集器选择每一时隙Q值最大的动作作为规划结果,生成最佳路径;本发明提出的方法可以以较高的成功概率、更接近意图的性能完成数据采集路径规划。
声明:
“意图驱动的强化学习路径规划方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)