本发明公开了一种自动驾驶决策方法、装置、车辆及存储介质。其中,该方法包括:采集目标车辆的行车环境数据,行车环境数据包括目标车辆的车辆数据和障碍物数据;利用深度神经网络模型对行车环境数据进行分析,得到决策动作,其中,深度神经网络模型基于回报函数和深度强化学习算法构建并训练,回报函数用于根据目标车辆至少两个时刻的行车速度和行车位移对深度神经网络模型进行训练;控制目标车辆执行决策动作。本发明解决了决策模型中的回报函数设计不合理,进而导致模型输出的决策结果不够合理的技术问题。
声明:
“自动驾驶决策方法、装置、车辆及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)