基于强化学习的5G NR下行调度时延优化系统,是根据实际场景存在的状态非完全可观测情形,将基站下行调度过程建模为一个部分可观测马尔可夫控制问题,并通过Actor‑Critic强化学习算法框架来解决。具体包括:网络监控模块,用于负责采集下行调度器的相关输入;资源调度器模块,用于通过仿真器模拟基站细粒度调度过程;POMDP构建模块,用于将每个时隙的状态处理为部分可观测状态,并建立针对不同时间尺度任务的智能体;核心控制器模块,用于帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定;场景自适应模块,作为辅助模块为核心控制器提供更科学高效的决策,并且通过流量时空预测来指导算法更好地进行多小区调度场景下的负载均衡。
声明:
“基于强化学习的5G NR下行调度时延优化系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)