在一个实施方式中,系统使用演员评判家强化学习(RL)模型来生成开放空间中的ADV的轨迹。系统感知ADV周围的环境,包括一个或多个障碍物。系统基于感知的环境将RL算法应用于规划轨迹的初始状态,以基于ADV的地图和车辆控制信息确定ADV达到多个轨迹状态的多个控制。系统根据目标目的地状态为每个控制确定通过RL算法的奖励预测。系统通过最大化奖励预测来从轨迹状态生成第一轨迹,以根据第一轨迹来自动地控制ADV。
声明:
“规划用于自动驾驶车辆的开放空间轨迹的在线代理” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)