本发明公开了一种基于多智能体强化学习的交通组织方案优化方法,改进了MADDPG中的Actor网络,基于生灭过程改进了Critic网络中的经验库,使用早高峰最大车流设作为智能体回报指标,使用轨迹数据训练最大熵逆强化学习模型作为多智能体的回报机制,基于此设计出强化学习的回报函数;本发明方法实现了对当前城市交通组织方案进行优化,通过对当前交通数据进行分析,找出导致交通拥堵的原因,本方法能够很好的适应和快速找出最优方案,为交警专家提供了交通辅导意见,并为智慧城市打下基础。
声明:
“基于多智能体强化学习的交通组织方案优化方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)