本发明提出一种基于深度强化学习的实时分布式无线网络调度方法和系统,包括:获取由多个接入点和用户节点组成的无线网络;在测试阶段的每个时隙,接入点根据部分数据流对应的发送队列信息,得到各数据流的状态,同时获取之前对无线信道的历史观测信息将数据流的状态和历史观测信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;在训练阶段,网络中存在的全局决策模型获取所有数据流的状态信息,并给出每个接入点的最优决策动作,接入点执行专家网络给出的最优决策动作,同时将部分数据流的状态,信道的历史观测信息,最优调度决策动作作为交互信息存储至各自的经验回放池中,从各自的经验回放池中抽取经验,训练更新当前决策模型。
声明:
“基于深度强化学习的实时分布式无线网络调度方法和系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)