提供了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器。控制器包括执行以下步骤:使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合,来学习系统的随机预测模型;估计相关联的平均预测和不确定性;在当前时间步骤使用控制输入时,使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合;确定具有最坏情况偏差的系统状态;确定稳健性约束的梯度;使用非线性规划来提供并求解稳健策略优化问题,以获得系统轨迹并且同时稳定局部策略;根据求解的优化问题更新控制数据;以及经由接口输出更新后的控制数据。
声明:
“用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)