本发明实施例提供一种强化学习方法、装置、电子设备及存储介质,所述方法包括:确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态;基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作,并基于下一规则状态和下一执行动作确定下一行动效用值;基于下一行动效用值,更新智能体的当前行动效用值,直至满足预先设定的交互终止条件。本发明实施例提供的强化学习方法、装置、电子设备及存储介质,行动效用值的计算量大幅减少,缩减了计算维度,提升了强化学习效率。
声明:
“强化学习方法、装置、电子设备及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)