本发明公开了一种基于多智能体深度强化学习的TCP拥塞控制方法及装置。所述方法包括:在传输控制协议TCP中,通过设置连续的统计区间,将多流竞争瓶颈链路的拥塞控制问题建模为马尔可夫博弈过程,并利用深度强化学习,用神经网络表示表示TCP的拥塞控制策略,在一个模拟环境中训练出最优的拥塞控制策略,从根本上解决传统启发式拥塞控制算法在动态多变的网络环境中的适应性问题及公平性问题。本发明方法使用在线变点检测技术划分统计区间,采用Actor‑Critic深度强化学习框架,对多个智能体并行联合训练,直接对TCP拥塞控制进行建模和学习,从而生成一个最优的拥塞控制策略。
声明:
“基于多智能体深度强化学习的TCP拥塞控制方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)