本说明书实施例提供一种利用深度强化学习预测用户行为的方法和装置,其中方法包括,首先获取当前用户的特征数据作为深度强化学习的当前环境状态s,该特征数据至少包括,当前用户的资金相关数据。接着,将该特征数据输入深度神经网络,该深度神经网络被训练为,至少根据各种备选借贷动作a对应的奖励分数r,确定在当前环境状态s下,分别采取各种备选借贷动作,对应预期得到的各种累积奖赏Q;其中,各个备选借贷动作包括借款数额,借款时间和借款利率,对应的奖励分数r至少根据借款数额,借款时间和借款利率而确定。然后,根据得到的各个累积奖赏Q,在各种备选借贷动作中进行选择,作为预测的当前用户的借贷动作。
声明:
“利用深度强化学习预测用户行为的方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)