本发明公开了一种基于深度强化学习的共享自行车调度方法,包括以下步骤:S1:划分共享自行车的调度区域,得到调度区域单元,并确定共享自行车的运行环境变量;S2:确定共享自行车的调度变量;S3:构建共享自行车的车辆调度优化模型;S4:基于共享自行车的车辆调度优化模型,利用平均场理论构建共享自行车调度框架,并利用共享自行车调度框架完成共享自行车调度。本发明提出的基于强化学习的共享自行车调度优化方法有利于智能地解决随机和复杂的动态环境下,大规模路网的共享自行车短期和长期调度优化问题。其考虑环境的供需变化和未来时间中调度决策与环境的交互影响,且不需要提前预测需求或进行人工数据处理,不受到需求预测计算效率和准确性的影响。
声明:
“基于深度强化学习的共享自行车调度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)