本说明书实施例提供一种实现隐私保护的更新强化学习系统的方法,其中强化学习系统包括服务端和N个客户端,服务端部署强化学习模型的公共神经网络,N个客户端中各自部署该强化学习模型的线程神经网络,并各自搭建业务环境,其中强化学习模型用于针对业务环境预测业务动作。在该方法中,每个客户端利用其部署的线程神经网络独立地与其搭建的业务环境进行交互,并利用交互数据计算梯度数据,再对梯度数据进行加密后传输至服务端,服务端对每个客户端传输的加密数据进行汇总解密,得到对应于多个梯度数据的梯度和值,用以集中更新公共神经网络的模型参数。如此,可以在防止客户端中本地隐私数据被泄露的同时,实现多个客户端联合训练强化学习模型。
声明:
“实现隐私保护的更新强化学习系统的方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)