本发明涉及一种基于条件生成对抗网络的模型化策略搜索学习方法,其技术特点是包括以下步骤:收集环境的真实状态转移样本;构造条件生成对抗网络模型,该条件生成对抗网络模型包括生成器与判别器;利用真实状态转移样本训练条件生成对抗网络直至收敛,最终训练得到的生成器为环境状态转移预测模型;生成数量足够多的路径样本;利用路径样本更新策略搜索强化学习算法中策略模型的参数,直到策略模型的参数更新收敛为止。本发明设计合理,当得到了环境模型的生成器后,在学习策略时不再需要额外的花费进行样本的采样,能够系统有效地解决大规模环境中复杂决策问题。
声明:
“基于条件生成对抗网络的模型化策略搜索学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)