本发明公开了一种基于生成对抗模仿学习的电力系统动态经济调度系统及方法,首先,生成器网络模块观测电力系统状态,采用强化学习近端策略优化算法生成调度策略;其次,完美调度模块生成完美调度策略;再次,判别器网络模块将所述生成器网络模块生成的调度策略与完美调度策略进行对比,得出反馈信息来训练生成器网络参数与判别器网络参数;最后,生成器网络模块基于判别器网络模块训练后的生成器网络参数,结合电力系统状态获得最终的调度策略。本发明结合生成对抗网络,避免了深度强化学习中人为定义奖励函数引入的主观性,实现策略到策略的端到端的学习,改善了算法的收敛性问题,降低建模难度,增强了算法应对高维复杂问题时的能力。
声明:
“基于生成对抗模仿学习的电力系统动态经济调度系统及方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)