根据一方面,提供了一种训练策略的计算机实现的方法,该策略供通信网络中的强化学习(RL)代理(406)使用,其中,RL代理(406)用于根据该策略优化通信网络的相应小区(404)中的一个或多个小区参数,该方法包括:(i)为通信网络中的多个小区(404)中的每一个小区部署(1001)相应的RL代理(408),该多个小区(404)包括彼此相邻的小区,每个相应的RL代理(408)具有策略的第一次迭代;(ii)根据策略的第一次迭代操作(1003)每个所部署(408)的RL代理,以调整或维持相应小区(404)中的一个或多个小区参数;(iii)接收(1005)与该多个小区(404)中的每一个小区的操作相关的测量;以及(iv)基于所接收的与该多个小区(404)中的每一个小区的操作相关的测量来确定(1007)策略的第二次迭代。
声明:
“用于优化小区参数的策略” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)