本发明提供一种基于离线强化学习的供热控制方法及系统,所述方法包括以下步骤:采集供热数据,将供热数据集输入供热模型;从供热数据集中采样条交互数据获得四元组(s,a,r,s′),以时间步长从t=1到T步进行循环,训练Gω模型;将训练后的Gω模型部署至服务器,并通过定时任务,实施对一网和二网供水温度进行预测,将预测结果下发至换热站;并对Gω模型的效果进行监控。本发明将先进的离线强化学习算法应用于集中供热控制系统,在无需与真实环境交互的情况下充分发挥了强化学习算法的优势,避免了与环境交互时的低效采样和昂贵成本;充分利用了历史交互数据,相较于现有技术在理论和实际上都大大提高了控制算法的性能。
声明:
“基于离线强化学习的供热控制方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)