本发明公开了一种基于强化学习的风控模型构建方法及装置,属于个人信贷风控技术领域。所述方法包括:接收用户信贷请求,获取风控决策需要的数据,进行验证;对数据进行处理,构建状态向量,并根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;计算得到动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对回报预测网络的参数进行更新。本发明可使风控模型优化目标与商业目标一致,并且能够迅速应对行业或者市场的变化。
声明:
“基于强化学习的风控模型构建方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)