常见SEO云计算服务器虚拟化在阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis
云主机 独立服务器
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。
而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
说白了,就是使用redis来维护一个url队列,然后scrapy爬虫都连接这一个redis获取url,且当爬虫在redis处拿走了一个url后,redis会将这个url从队列中清除,保证不会被2个爬虫拿到同一个url,即使可能2个爬虫同时请求拿到同一个url,在返回结果的时候redis还会再做一次去重处理,所以这样就能达到分布式效果,我们拿一台主机做redis 队列,然后在其他主机上运行爬虫.且scrapy-redis会一直保持与redis的连接,所以即使当redis 队列中没有了url,爬虫会定时刷新请求,一旦当队列中有新的url后,爬虫就立即开始继续爬
首先分别在主机和从机上安装需要的爬虫库
pip3install requests scrapy scrapy-redis redis在主机中安装redis
安装redisyuminstallredis 启动服务 systemctlstartredis 查看版本号 redis-cli--version设置开机启动 systemctlenableredis.service修改redis配置文件 vim /etc/redis.conf 将保护模式设为no,同时注释掉bind,为了可以远程访问,另外需要注意阿里云安全策略也需要暴露6379端口
bind127.0.0.1protected-modeno改完配置后,别忘了重启服务才能生效
systemctlrestart redis然后分别新建爬虫项目
scrapystartproject myspider在项目的spiders目录下新建test.py
云服务器的公网带宽
导包importscrapyimportosfromscrapy_redis.spidersimportRedisSpider定义抓取类class Test(scrapy.Spider):classTest(RedisSpider):定义爬虫名称,和命令行运行时的名称吻合name ="test"定义redis的keyredis_key =test:start_urls定义头部信息haders = {User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.86 Chrome/73.0.3683.86 Safari/537.36}defparse(self, response):print(response.url)pass然后修改配置文件settings.py,增加下面的配置,其中redis地址就是在主机中配置好的redis地址:
BOT_NAME=myspiderSPIDER_MODULES= [myspider.spiders]NEWSPIDER_MODULE=myspider.spiders设置中文编码FEED_EXPORT_ENCODING=utf-8scrapy-redis 主机地址REDIS_URL=redis://root@39.106.228.179:6379队列调度SCHEDULER="scrapy_redis.scheduler.Scheduler"不清除缓存SCHEDULER_PERSIST=True通过redis去重DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"不遵循robotsROBOTSTXT_OBEY=False最后,可以在两台主机上分别启动scrapy服务
云服务器的缺点
scrapy crawltest此时,服务已经起来了,只不过redis队列中没有任务,在等待状态
进入主机的redis
redis-cli将任务队列push进redis
lpushtest:start_urlshttp://baidu.comlpushtest:start_urlshttp://chouti.com可以看到,两台服务器的爬虫服务分别领取了队列中的任务进行抓取,同时利用redis的特性,url不会重复抓取
爬取任务结束之后,可以通过flushdb命令来清除地址指纹,这样就可以再次抓取历史地址了。
游戏服务器 阿里云
推荐阅读
- 买阿里云服务器购买密码压缩包可以防百度网盘吗? 2025-12-16 01:20:56
- 服务器 云主机 区别安全隐患,百度网盘疑似存在密码泄漏的风险 2025-12-16 01:10:52
- 阿里云服务器防御用雷克沙LexarNM620打造一块Steam游戏库 2025-12-16 01:00:48
- 阿里云开服务器大西北首条有砟高铁长啥样?一起去工地探究竟 2025-12-16 00:50:45
- 保存百度云服务器异常Nanoleaf绿诺智能六角灯:轻松实现感应式控制灯光 2025-12-16 00:40:40

