本发明公开了一种训练端到端的自动驾驶策略的方法。该方法包括:将反映驾驶环境的高维视觉信息输入到预训练的表示网络,自动学习低维信息,其中所述表示网络利用采集的示教数据进行监督学习,所述低维度信息是与自动驾驶任务相关度强的抽象特征;构建强化学习模型,智能体通过预训练的表示网络的低维信息表示结果来获取观测结果,得到优化的驾驶策略,其中强化学习过程基于离散时间的马尔可夫决策过程实现,强化学习的目标是获取最大长期回报期望。本发明在强化学习之前学习与自动驾驶任务相关度强的抽象特征表征,能够更快速、准确的获得最优驾驶策略。
声明:
“训练端到端的自动驾驶策略的方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)