本发明提供了基于注意力机制的CPS系统强化学习控制方法,包括以下步骤:控制对象通过策略网络选择一个合适的策略,并且对环境进行执行;环境在策略的执行下产生变化和回应,生成一个奖励;预设的多个传感器对环境进行一个探测,获得了多个传感器探测信息;将传感器探测信息传入自注意力网络,将获取的传感器信息的奖励和当前的状态同时输入策略网络,更新策略网络的梯度,并且作为策略网络的输入去选择下一时间段的策略,重复进行即可完成学习控制方法。本发明在使用强化学习算法解决实际的控制问题的时候,该方法对于奖励的设计要求更加的宽松和便利,即部分信息可以通过传感器的隐知识学到。
声明:
“基于注意力机制的CPS系统强化学习控制方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)