51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1679|回复: 1
打印 上一主题 下一主题

pyspider基本使用和项目删除

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2019-3-7 14:49:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。


一: 在cmd中使用pysider all启动pyspider及其组


二:输入链接http://localhost:5000,进入pyspider dashboard面板


三:创建项目

点create会出现create new project对话框,第一行是项目名字,第二行是开始的url地址(以去哪儿网站为例),填写完成点击creat。



四:出现pyspider的项目编辑和调式页面

左侧是上侧run按钮是单步调式爬虫,下册是5个点击按钮(下面会使用到)。

右侧是pyspider自动生成的一段代码

handler是爬虫的主类,包括爬取定义存储,基本可以在这个handler可以完成

crawl_config属性是可以将所有爬取的配置统一定义到这里。包括headers、设置代理等。

On_start()是爬取入口,方法内包括你要爬取的url,和callback参数,这个参数指定了这个页面爬取成功后用哪个方法进行解析,这里使用index_page(),如何在on_start爬取成功,生成的response机会通过callback交给inde_page()

Index_page()接受了上面的response参数,就可以对接pyquery,我们直接就可以doc()中的方法传入css选择器,这样就解析网页了,也就是doc内容进行改换和遍历。

Index_page()里面的callback同上一样进行对接解析方法:detail_page()。


五:首先点击run,此时在follows位置会发生变化

点击follows以后页面会出现链接,点击url三角链接

生成同类型的更多url

我这边在右侧进行了代码修改和添加,所以follows是11个,没有改动右侧的代码自动生成应该在200多个follows。

点击html可以看到网页源码

点击web就可以看到qunaer的页面

点击了web停留可以通过上下滚动看网页

六:点击enable css seletor helper,会在去哪儿的网页上面形成

点击网页里面的标题

生成了li.tit a的对象

点击右侧覆盖doc()里面的内容接着点击

就会将doc()内容进行变化

就会发现follows发生的变化,有11个。

点击其中一个网址,查找html可以发现其中没有img,web页面也只有文字没有图片。

pyspider对接了phantomjs,只需要修改一个参数就可以对接了。

加入fetch_type='js'

重新再次点击run,再去观察web和html就可以发现图片和img节点了。

最后我们需要提取作者、标题等,所以修改detail_page()方法中的内容

再次回到pyspider dashboard面板可见

项目如何删除

将项目名字(group)改成delete,将状态(status)改成stop,24小时之后自动删除。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

本版积分规则

关闭

站长推荐上一条 /1 下一条

小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

GMT+8, 2024-11-18 12:18 , Processed in 0.062963 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2024 Comsenz Inc.

快速回复 返回顶部 返回列表