本发明涉及一种基于生成模型的隐空间模型化策略搜索学习方法,收集环境的真实状态转移样本数据;构造变分自编码器网络模型;训练变分自编码器网络模型直至收敛;在隐空间构建条件生成对抗网络模型;训练条件生成对抗网络模型直至收敛,得到隐空间中的状态转移预测模型;利用隐空间状态转移预测模型和当前策略生成数量足够多的路径样本;利用路径样本更新策略搜索强化学习算法中策略模型的参数,直到策略模型的参数更新收敛为止。本发明是利用生成模型的降维能力和捕捉数据分布能力来模型化状态转移函数,并进行策略搜索的方法,既可以解决高维数据很难直接处理的问题,减少内存消耗,又可以高效地解决样本数量较少或采样预算不足的难题。
声明:
“基于生成模型的隐空间模型化策略搜索学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)