本发明公开了一种多时间尺度的多智能体强化学习方法及装置,其中,方法包括以下步骤:获取智能体间的关联拓扑结构;基于关联拓扑结构使得相邻的智能体之间相互观测状态、动作及收益;根据观测状态、动作及收益进行多智能体强化学习,更新多时间尺度的多智能体强化学习模型。该方法可以有效降低通讯复杂度和求解复杂度,更加符合现实应用的需求,且能够处理更加一般的问题,具有更加广泛的适用性,能够处理更多的实际应用问题。
声明:
“多时间尺度的多智能体强化学习方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)