公开了使用强化学习代理来管理存储在缓存中的数据,包括:确定关于缓存的当前状态观测集,其中基于对缓存的历史缓存访问来确定当前状态观测集;将当前状态观测集输入到强化学习代理的行动者网络,以获得由行动者网络输出的动作,其中强化学习代理被配置为管理存储在缓存中的数据;将当前状态观测集和动作输入到强化学习代理的评论家网络,以从评论家网络获得对应于动作的分数;使强化学习代理执行与管理存储在缓存中的数据有关的动作;使用分数来更新行动者网络;以及使用对应于动作的奖励来更新评论家网络。
声明:
“使用强化学习代理管理存储在缓存中的数据” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)