本发明提供了一种基于强化学习的实时竞价广告资源分配方法,包括:对历史广告数据进行统计分析,得到CTR;将得到的CTR进行加噪处理,得出AD Exchange和DSP对CTR的估值;按照不同等级预算限制将实时竞价广告印象分配问题建模为一组多级的马尔科夫决策过程集合,对需要进行折算的变量进行折算;并将折算后的变量输入到对应等级的DQN中;获取每个DQN计算出的累积回报值;对每个DQN得到的累积回报值进行归一化,通过对应的修正函数进行修正;将所有修正后的回报值进行加权,根据得到的累积回报值确定不同动作下的广告资源分配策略,从广告资源分配策略中选择最优的广告分配策略。本发明实现了在保证AD Exchange利益的前提下,让DSP分配的资源更加合理使得收益更高。
声明:
“基于强化学习的实时竞价广告资源分配方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)