教你用Python爬虫爬取知乎妹子信息，还愁找不到女朋友吗？ - 码农俱乐部 - Golang中国

前言：

Python模拟爬虫抓取知乎用户信息以及人际拓扑关系，使用scrapy爬虫框架，数据存储使用mongo数据库。

既然需要用到scrapy爬虫框架，那就来科普一下scrapy爬虫框架吧~

Scrapy：

1、Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取 web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

2、Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

（科普完啦~咱回归正题~）

爬虫项目部署：

　　进入zhihu_spider后执行```docker-compose up``` ，进入container后和本地运行方法相同，依次启动mongo、rabbitmq、异步任务、爬虫进程即可。

其它需要说明的问题：
　　爬虫框架从start\_requests开始执行，此部分会提交知乎主页的访问请求给引擎，并设置回调函数为post_login.
　　post\_login解析主页获取\_xsrf保存为成员变量中，并提交登陆的POST请求，设置回调函数为after\_login.
　　after\_login拿到登陆后的cookie，提交一个start\_url的GET请求给爬虫引擎，设置回调函数parse\_people.
　　parse\_people解析个人主页，一次提交关注人和粉丝列表页面到爬虫引擎，回调函数是parse\_follow, 并把解析好的个人数据提交爬虫引擎写入mongo。
　　parse\_follow会解析用户列表，同时把动态的人员列表POST请求发送只引擎，回调函数是parse\_post\_follow，把解析好的用户主页链接请求也发送到引擎，人员关系写入mongo。

　　parse\_post\_follow单纯解析用户列表，提交用户主页请求至引擎。

本地运行请注意：

爬虫依赖mongo和rabbitmq，因此这两个服务必须正常运行和配置。为了加快下载效率，图片下载是异步任务，因此在启动爬虫进程执行需要启动异步worker，启动方式是进入zhihu_spider/zhihu目录后执行下面命令: 　

celery -A zhihu.tools.async worker --loglevel=info

源码太长了，这里就不一一一展示了，想要完整源码练手的小伙伴

复制链接至浏览器打开：

https://pan.baidu.com/s/1BeZBe-2osp1OdwR7_xQvwA

即可获取完整源码（无提取码）

源码测试截图：

扫码(或长按识别)进群，更多知识在等你学习~

声明：本文于网络整理，著作权归原作者所有，如有侵权，请联系小编删除。