本申请公开了基于元强化学习的智能车辆交叉口决策方法、设备及介质,用以解决现有的车辆行为决策方法未考虑交叉口场景的复杂性和不确定性,且自适应性欠佳的技术问题。该方法首先确定各第一交叉口场景中目标车辆对应的各环境车辆的第一观测状态;然后获取各第一观测状态对应的第二观测状态、随机动作以及奖励值;对预先训练好的决策模型进行再训练,得到基于时序的决策模型;确定各第二交叉口场景中目标车辆的各环境车辆的第三观测状态;分别确定各第二交叉口场景对应的下降梯度,以确定相应的元目标;根据元目标,确定基于时序的决策模型的敏感参数;更新基于时序的决策模型。
声明:
“基于元强化学习的智能车辆交叉口决策方法、设备及介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)