在一个实施方式中,系统生成多个驱动驾驶场景来训练强化学习(RL)代理并重放每个驱动驾驶场景以通过以下操作训练RL代理:将RL算法应用于驱动驾驶场景的初始状态,以从ADV的多个离散的控制/动作选项中确定多个控制动作,以达到基于多个离散的轨迹状态选项的多个轨迹状态,对于每个控制/动作确定通过RL算法的回报预测,确定轨迹状态的判断分数,并基于判断分数更新RL代理。
声明:
“使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)