本发明公开了一种基于随机微分方程的连续性强化学习模型构造系统及方法,包括动作微分构造模块、环境状态微分构造模块、基础模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块;值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块;环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型,能够实现对动作增量的计算,保证动作的连续性,并能够适用于连续物理系统的实际控制。
声明:
“基于随机微分方程的连续性强化学习模型构造系统及方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)