本发明涉及一种基于IP的高效爬虫方法,包括以下步骤:(1)获取代理IP,将IP放入可用性检测队列,请求在本地搭建的服务器,将高质量代理的IP放入普通IP池;(2)根据实际采集任务,制定指定网站使用的IP池;(3)对各个代理池的IP请求服务器,删掉失效的IP。采用了本发明的基于IP的高效爬虫方法,根据采集不同的网站,添加不同的指定网站使用的IP池,不同的网站用不同的IP池,能最大限度的利用IP,本发明节约了因无法获取数据而频繁切换IP的时间,大大提高了爬虫效率,通过对指定网站使用的IP池监测就能很好解决该问题,提高利用率和效率。
声明:
“基于IP的高效爬虫方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)