本发明公开了一种基于强化学习的电力系统缺陷物资智能调度方法,包括,定义强化学习中的状态、决策、转移方程、奖励函数及物资仓储动态调度问题中的需求和目标;利用马尔科夫决策过程解决所述物资仓储动态调度问题;罗列针对电网缺陷物资的Bellman方程并选择求解策略;将所述Bellman方程修改为数据驱动在线更新的形式,基于ε贪婪策略确定调度行动。本发明提出了基于马尔科夫随机过程和强化学习求解电力系统应急物资的联合控制和调度问题,且“端到端”算法不预测需求,直接做出库存控制和调度决策;同时在真实数据集上得到了验证,有很好的收敛性和增益,证明了方法的可用性与实践价值。
声明:
“基于强化学习的电力系统缺陷物资智能调度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)