本发明公开了一种异常处理方法、装置以及集群系统。其中,该方法包括:确定批处理集群中的异常批处理节点,其中,异常批处理节点为超过心跳健康检测的超时时间仍未响应的批处理节点;对异常批处理节点进行验证,得到验证结果;依据验证结果,确定异常批处理节点的故障转移,其中,故障转移为将未处理完的批处理作业转移到非异常批处理节点继续处理。本发明解决了现有技术方案通常不能很好解决分布式环境下批处理所面临的节点“假死”问题,导致分布式批处理故障转移间接失效,不能提供稳定可靠的分布式批处理服务的技术问题。
声明:
“异常处理方法、装置以及集群系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)