权利要求
1.矿车调度模型训练方法,应用于矿车调度模型训练装置中,其特征在于,所述矿车调度模型训练装置包括调度智能体和交互环境,所述交互环境包括仿真系统和人工系统,所述方法包括: S1:获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息,并根据所述矿区生产信息和所述时间节点信息,生成调度状态信息; S2:通过预设的强化学习算法,根据所述调度状态信息,在预设的调度指令集合中选取出目标调度指令,并将所述目标调度指令发送至所述仿真系统,以使所述仿真系统根据所述目标调度指令更新所述矿区生产信息; S3:通过预设的混合奖励函数,基于所述更新后的矿区生产信息和所述时间节点信息,生成所述目标调度指令的动作奖励,应用所述动作奖励在所述调度指令集合中选取优化后的目标调度指令,重复执行步骤S1至步骤S3,不断选取优化后的目标调度指令,并将所述优化后的目标调度指令发送至所述仿真系统,以使所述仿真系统根据所述优化后的目标调度指令更新所述矿区生产信息; S4:统计预设时间段内的所述仿真系统中的矿区产量信息,计算智能体性能指标,并在所述智能体性能指标达到预设条件时,结束矿车调度模型的训练。2.根据权利要求1所述的方法,其特征在于,在所述获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息之前,所述方法还包括: 在所述仿真系统中模拟生成所述矿区生产信息,其中,所述矿区生产信息包括仿真路网信息、至少一个仿真装载设备、每个所述仿真装载设备的设备信息和设备状态、至少一个仿真卸载设备、每个所述仿真卸载设备的设备信息和设备状态、至少一个仿真矿车、每个所述仿真矿车的车辆信息和车辆状态、以及每个所述仿真装载设备和每个所述仿真卸载设备之间的行驶时间中的至少一种信息; 在所述仿真系统中的仿真矿车发送车辆调度请求时,根据所述矿区生产信息,在所述人工系统中生成针对所述仿真矿车的时间节点信息,其中,所述时间节点信息包括所述调度指令集合中的每个所述调度指令对应的行驶时间、每个所述调度指令对应的预期等待时间、所述仿真系统中每个仿真装载设备的剩余服务时间,以及仿真系统中每个仿真卸载设备的剩余服务时间中的至少一种信息。 3.根据权利要求1或2所述的方法,其特征在于,所述获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息
声明:
“矿车调度模型训练方法、装置、芯片、终端、设备及介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)