本说明书实施例提供一种更新业务预测模型的方法和装置,其中业务预测模型包括通过强化学习实现的智能体。方法包括:获取业务请求,根据业务请求确定环境的状态特征;将状态特征输入智能体,智能体根据第一策略参数下的策略函数,确定对应的业务响应作为当前动作。然后,向环境输出业务响应,基于环境反馈确定当前奖励。接着,根据状态特征,当前动作和当前奖励,以损失函数最小化为目标,确定更新后的第二策略参数,其中损失函数与第一目标项负相关,所述第一目标项包括,采用混合高斯模型GMM,将第二策略参数下的策略函数表示为K个高斯分布的组合的第一表达式;于是,可以用第二策略参数下的策略函数,更新智能体。
声明:
“更新业务预测模型的方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)