本发明涉及一种基于强化学习的闲时交通指示灯控制方法,包括下列步骤:采用的SlimYOLOv3模型感知环境,解析场景,识别出场景中所有车辆类型的目标,并通过在每个目标周围定义边界框来定位这些目标的位置。采用基于DQN的强化学习方法训练交通指示灯控制智能体:a)定义动作空间,交通指示灯以的概率随机选取动作,以的概率采用贪婪算法选取动作;b)定义状态空间:任意时刻观测的路面状态为各方向不同区间的车辆个数,观测状态值为一个六维的向量;c)定义奖励函数:三个区间路段、和的惩罚权重分别为、和,奖励值为各路段惩罚权重之和;d)采用基于DQN的强化学习方法学习出使得奖励值最高的策略,得到性能优质的交通指示灯控制智能体。
声明:
“基于强化学习的闲时交通指示灯智能控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)