按照各种实施方式,描述了一种用于训练受控系统的控制装置的方法,其中该控制装置具有调节装置和按照控制策略来工作的执行器。该方法具有:通过该调节装置来产生控制行动,其中每个控制行动都通过如下方式来被产生:检测说明受控系统的状态的测量参量,按照该控制策略来确定执行器的针对所检测到的测量参量的修正项,使用针对所检测到的测量参量的修正项来使所检测到的测量参量适配,并且通过将经适配的测量参量作为实际值输送给该调节装置来产生该控制行动。该方法还具有:通过强化学习来训练该控制策略,以使通过所产生的控制行动来实现的收益最大化。
声明:
“用于训练受控系统的控制装置的方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)