本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。
声明:
“基于部分可观测迁移强化学习的自动驾驶决策方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)