本发明公开了一种聚合物品牌切换的控制方法,包括:获得离线优化轨迹作为系统行为的观测样本集;利用决策树的非参数建模方法基于所述观测样本集建立Q函数的学习模型;基于所述Q函数的学习模型获得最优控制策略并予以实施;收集历史操作轨迹补充到所述观测样本集中,并重复以上步骤,直到停止学习。本发明基于动态批次强化学习的优点,根据观测到的样本数据,借助决策树的建模方法,学习Q函数并从中得到平稳的闭环最优策略。
声明:
“聚合物品牌切换的控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)