本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法,属于计算机领域。首先在跟随者对领导者状态无法获取的场景下,使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后,一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理,然后定义新的增广系统下的最优控制问题,并使用强化学习策略算法来迭代求解,并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难,本发明利用神经网络良好的逼近性质,使用actor‑critic框架进行求解。
声明:
“基于状态观测与经验池的非线性多智能体一致性方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)