本发明公开了一种资源高效与服务质量感知的推理服务系统自适应调度方法,包括:深度学习模型自动选择模块利用协同过滤方法预测推理工作负载在不同深度学习模型上运行的推理性能;深度学习模型自动选择模块利用贪婪算法选择满足用户服务质量需求的最优深度学习模型,并将最优深度学习模型部署至容器中为推理服务系统中的推理工作负载服务;协同管理模块利用深度强化学习方法,根据推理工作负载的动态变化,协同地调整GPU资源分配和批量大小设置,本发明可根据用户的需求自动地选择深度学习模型,可根据推理工作负载的动态变化协同地调整GPU资源的分配和批量大小的设置。
声明:
“资源高效与服务质量感知的推理服务系统自适应调度方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)