本公开提供了基于深度强化学习对银行风险定价的优化方法,对动作值函数网络参数和策略网络参数进行初始化;通过现有初始化的网络与银行模拟环境进行交互,完成初始化经验回放;通过均匀分布在经验回放池中采样,获取训练样本;通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新;经过多轮训练,通过预设的更新方式,将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。该方法能够用沙盘模拟平台的仿真银行模拟环境,基于深度强化学习算法进行模型训练,得到可应用于真实银行经营和场景的模型,并推测出系统性风险约束下银行最优的风险定价。本公开还涉及基于深度强化学习对银行风险定价的优化装置。
声明:
“基于深度强化学习对银行风险定价的优化方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)