本发明公开一种基于深度强化学习的自动驾驶车辆超车决策方法。该方法包括:基于演员评论家架构构建强化学习网络,该强化学习网络包含策略网络、价值网络和Q值网络,其中策略网络通过对驾驶环境的观测产生连续的驾驶动作;车辆将所述策略网络产生的连续驾驶动作应用于驾驶决策任务中,并通过与驾驶环境的交互,以实现无碰撞、连续高速超车为目标,在奖励函数指导下进行自动驾驶,其中所述驾驶决策任务包括第一子任务和第二子任务,第一子任务是在单车场景中实现自动驾驶车辆高速的驾驶,第二子任务是在多车环境中实现超车任务,第二子任务的初始策略是第一子任务得到的最优策略。利用本发明能够实现无碰撞的、连续高速超车任务。
声明:
“基于深度强化学习的自动驾驶车辆超车决策方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)