本发明实施例提供一种自动驾驶汽车决策方法及装置,所述方法包括:获取不同驾驶场景下的标准驾驶演示数据,根据标准驾驶演示数据进行模仿学习,得到不同驾驶场景下的最优奖励函数;基于最优奖励函数对对应的驾驶动作进行强化学习训练,得到下层驾驶动作决策模型;根据驾驶场景获取对应的交通状态,基于强化学习确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型;检测到汽车处于自动驾驶模式中,通过上层驾驶场景决策模型,输出匹配的实时驾驶场景,然后确定对应的下层驾驶动作决策模型,输出对应的驾驶动作并执行。采用本方法能够更精确地对驾驶数据等进行规划,增加驾驶行为与人类驾驶行为的匹配度。
声明:
“自动驾驶汽车决策方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)