本申请涉及一种基于强化学习的无超调PID控制器参数整定方法。本申请通过构造学习智能体,观测当前状态数据输入到动作神经网络得到动作参数,之后再观测下一状态的数据以及奖励。当前状态,动作,转移后状态,奖励值,四个元素组成了状态转移元组,每一次被控对象执行动作时都会进行一次状态转移,并将状态转移元组存入经验池内。智能体抽取一定量的状态转移元组,用于训练动作网络和评价网络。重复训练动作网络和评价网络直到参数收敛,保存参数权重。最终智能体根据当前状态数据输出最优PID参数提供给PID控制器,使得被控对象的状态值在无超调的基础上以较快的速度达到设定值,进而实现对控制器PID参数无超调整定的方面改进。
声明:
“基于强化学习的无超调PID控制器参数整定方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)