本发明属于人工智能技术领域,具体的说是涉及一种基于深度强化学习的网络自主智能管控方法。本发明首先构建网络拓扑,然后引入CNN、LSTM层和延迟更新策略构建基于DDPG强化学习算法的路由决策模型,最后对基于深度强化学习的路由决策模型进行迭代训练。在每次迭代训练中,智能体根据测量得到的网络状态和神经网络获得输出的动作,即一组链路权重,并根据链路权重使用最短路径算法计算业务的路由。根据路由计算结果,智能体下发流表,并获取业务的端到端时延和丢包率计算此次迭代的奖励值。算法具有良好的收敛性,能够有效降低业务的端到端时延和丢包率。
声明:
“基于深度强化学习的网络自主智能管控方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)