pyspider + RabbitMQ 使用记 - 上

老白的释然 · 发表于 2019-3-7 14:19:36

接到一个爬虫任务，项目比较巨大，原来想用 Requests 配合正则做爬虫。后来得知了 pyspider 这个神器，才知道之前的想法 low 爆了。

按照 GitHub 上的安装教程安装好以后，我们就可以通过 pyspider 命令来启动这个神器，然后在浏览器中打开 http://localhost:5000/ 就可以看到界面了。首先是一个 Dashboard，我们在这里可以创建爬虫项目，点击 Create 然后输入项目名就可以看到代码了。

关于项目的帮助可以看文档，在 GitHub 上可以找到该项目的 Docs 链接，我们现在上来直接看代码，我用中文做下注释。

复制代码

作者自己写的中文教程里面已经把很多操作都讲清楚了，我就不抄来了。

对于 ajax 请求的内容可以直接 crawl 那个 ajax 请求的 URL，返回的 response.json 就变成了一个 Python 的字典。

当每个函数 return 的时候，return 的内容被传递到了 BaseHandler 这个基类中的 on_result 函数，其代码如下：

复制代码

然后我们就可以通过重写 on_result 函数，来将所有函数的返回值进行处理，再输出到 RabbitMQ 的队列中。

队列的另一端是数据库写入脚本，该脚本一条一条地从队列中取出消息，然后一个字段一个字段地插入到数据库，不用担心数据库写入时的冲突问题了。

Miss_love · 发表于 2020-12-30 18:05:58

支持分享

		自动登录	找回密码
密码			(注-册)加入51Testing

站长推荐 /1