本发明公开了一种基于混合分层强化学习的网约车调度方法,包括以下步骤:将网约车调度过程构建为马尔科夫过程;基于所述网约车调度过程提取时间信息、司机分布和订单分布进行仿真处理,构建司机与订单的时空分布矩阵;构建混合分层模型,所述混合分层学习高层决策和低层决策,为司机匹配订单获得调度结果;将所述调度结果进行存储和学习,计算出所述高层决策和低层决策的奖励,更新模型;所述混合分层模型进行测试,获得订单响应率和订单收益,完成网约车调度。本发明利用分层强化学习实现了网约车调度的多层次目标学习,并使用混合模块联合多层决策,使得网约车能更高效的完成订单。
声明:
“基于混合分层强化学习的网约车调度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)