51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1901|回复: 0
打印 上一主题 下一主题

爬虫框架pyspider个人总结(详细)熟悉

[复制链接]
  • TA的每日心情
    擦汗
    3 天前
  • 签到天数: 527 天

    连续签到: 4 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2018-12-6 14:29:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 测试积点老人 于 2018-12-6 14:31 编辑

    一、为什么要使用pyspider?
    我们很好奇,我们明明有了Scrapy框架,为什么还要使用pyspider框架呢?我们说两点
    • pyspider的优点,它有这么几个优点
      1.提供WebUI界面,调试爬虫很方便
      2.可以很方便的进行爬取的流程监控和爬虫项目管理
      3.支持常见的数据库
      4.支持使用PhantomJS,可以抓取JavaScript页面
      5.支持优先级定制和定时爬取等功能

    • 和Scrapy的比较
      1.pyspider 提供 WebUI,Scrapy它采用的是代码和命令行操作,但可以通过对接 Portia 现可视化配置
      2.pyspider 支持 PhantomJS来进行 JavaScript 谊染页面的采集 Scrapy 可以对接 Sc rapy-Splash组件,这需要额外配置
      3.pyspider 中内置pyquery 作为选择器而Scrapy 接了XPath 对接css选择器和正则匹配
      4.pyspider的可扩展程度不高,Scrapy可以通过对接其他的模块实现强大的功能,模块之间的耦合

    • 总结
    所以如果要快速实现一个页面的抓取,推荐使用 pyspider,开发更加便捷,如果要应对反爬程度很强、超大规模的抓取,推荐使用 Scrapy

    二、pyspider的安装pyspider的安装相对简单,不需要安装一些列的依赖库直接使用
    1. pip install pyspider
    复制代码
    然后等待安装成功就行,也可以使用源码安装

    三、pyspider的简单使用1.安装之后先验证是否安装成功,在CMD下输入
    1. pyspider
    复制代码
    或者
    1. pyspider all
    复制代码
    两者是一样的,新的pyspider框架已经整合了,所以使用pyspider就好




    出现这个则说明运行成功,运行在5000端口,当然这个可以改
    2.打开浏览器,输入
    1. http://localhost:5000/
    复制代码
    进入pyspider控制台


    出现这个则说明你的框架没什么问题!!!
    我把框架的执行分为了这么几部分
    • 创建
    • 执行
    • 调试
    • 结果

    我们分别来一步步说一下
    1.创建



    点击create开始创建



    弹出两个东西,project name 是你项目的名称 start url 是你要爬取的链接,分别输入以后,再次点击右下角的create,完成创建



    整个右边部分,分为这么几个东西
    1.右上角的save 是保存按钮,更改代码之后几点保存
    2.左上角的#后面的是你创建的一些参数,如创建时间,爬取域名,编码格式等
    3.下面的代码部分是创建项目自动生成的,你可以添加一些你自己的东西,我们在这里完成整个项目的爬取、解析、以及保存等工作

    • crawl_config:项目的所有爬取配置统一定义到这里,如定义 Headers 、设置代理等,配置之后全局生效

    • @every:设置定时爬取的时间
    • on_start:爬取入口,初始的爬取请求会在这里产生
    • self.crawl:该方法是爬取的主方法,被on_start调用,即可新建一个爬取请求,这里面有这么几个参数第一个参数是爬取的 URL ,这里自动替换成我们所定义的 URL ,还有 个参数 callback ,它指定了这个页面爬取成功后用哪个方法进行解析,代码中指定为 Idex_page()方法,即如果这个 URL 对应的页面爬取成功了,那 Response 将交给 index_page ()方法解析
    • index_page:方法接收这个 Response 参数,Response 对接了 pyquery 我们直接调用 doc()方法传入相应的css 选择器,就可以像 query 一样解析此页面,代码中默认是 a[href"="http ”],也就是说该方法解析了页面的所有链接,然后将链接遍历,再次调用了 crawl ()方法生成了新的爬请求,同时再指定了 callback为detail_page ,意思是说这些页面爬取成功了就调用 detail_page方法解析这里,index_page ()实现了两个功能,一是将爬取的结果进行解析, 二是生成新的爬取请求
    • detail age:接收 Response 作为参数该方法抓取的就是详情页的信息,不会生成新的请求,只对 Response 对象做解析,解析之后将结果以字典的形式返回,将结果保存到数据库




    • 点击左上角的pyspider可以返回主控制界面
    • 右上角的run可以让程序开始运行
    • 底边一排功能从左到右依次是 enable css selector helper:快捷替换css选择器    web:产看该URL下的web界面,html:产看该url下的HTML格式 ,follows:查看一共发起了多少个请求

    2.执行点击run可以看到暂时执行后的结果
    3.如果不正确,或者爬取信息有误,对右边代码部分进行调试
    4.最后返回到控制界面,把status改成running,并点击后面的run按钮开始执行
    分别显示5m、1h、1d5分钟一小时以及一天的爬取结果,绿色表示成功,红色表示请求次数太多而放弃,蓝色表示等待执行
    一般的使用过程就是确定爬取的网站,创建项目,在crawl_config里进行配置,在index_page里确定要爬取的url,在detail_page里确定要爬取的数据信息

    四、pyspider框架的架构和执行流程1.pyspider框架的架构
    pyspider的架构相对简单分为这么几个部分:scheduler(调度器)、fetcher(抓取器)、processor(脚本执行)任务由 scheduler发起调度,fetcher抓取网页内容, processor执行预先编写的py脚本,输出结果或产生新的提链任务(scheduler)、整个爬取的过程受,Monitor(监控器)的监控,结果保存在Result Worker(结果处理器)中。

    2.每个 pyspider 的项目对应一个 Python 脚本,该脚本中定义了一个Handler 类,它有on_start ()方法 爬取首先调用 on_start ()方法生成最初的抓取任务,然后发送给 Scheduler进行调度

    3.执行流程
    • scheduler 将抓取任务分发给 Fetcher 进行抓取, Fetcher 执行并得到响应,随后将响应发送给Processer
    • Processer 处理响应并提取 url,新的 URL 生成新的抓取任务,然后通过消息队列的方式通知Schduler 当前抓取任务执行情况,并将新生成的抓取任务发送Scheduler 如果生成了提取结果,则将其发送到结果队列等待 Result Worker 处理
    • Scheduler 接收到新的抓取任务,然后查询数据库,判断其如果是新的抓取任务或者是需要重试的任务就继续进行调度,然后将其发送回Fetcher 进行抓取
    • 不断重复以上流程实现抓取





    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

    x
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-18 08:45 , Processed in 0.062522 second(s), 25 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表