本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。
声明:
“状态部分可观测强化学习算法的高效采样更新方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)