51Testing软件测试论坛

标题: pyspider爬虫初学笔记 [打印本页]

作者: 老白的释然    时间: 2019-3-7 14:57
标题: pyspider爬虫初学笔记

在学习爬虫的过程中,知道了有pyspider这个神器,界面虽然简单但看着很方便,以下大概介绍一下各方面内容。


一、安装:

在命令行中pip install pyspider,

[attach]122656[/attach]

每次启动时都需要在命令行中输入pyspider,

[attach]122657[/attach]

在网页中打开localhost:5000

[attach]122658[/attach]

页面名叫dashboard,是pyspider的控制面板。

group代表分组,status中有stop,todo,running,Checking和debug五种模式,必须选择running或者debug模式时才能运行项目。progress和rate不用考虑太多,avg time是平均运行时长,actions中,有三个按键,分别代表运行,当前任务,和运行结果。


二、使用:

创建项目时,点击create,输入项目名称和目标网址,之后会进入新的页面,如下是爬取安居客网站上的房价数据案例:

[attach]122659[/attach]

新的页面必须点击右上角的save进行保存,否则退出时不会自动保存代码。

在该页面进行调试时,首先点击左侧输入框的run,之后点击下方的follow,下一步是出现的网址右侧的箭头,一步一步点击下去,会看到你提取出来的结果。

web按键是显示该网站的页面;

html是显示该网站的源代码;

message是显示代码运行信息;

enable css selector helper是可以在点击web的前提下在该网站页面中选取元素,检查它们的标签。

爬取的结果如下所示:

[attach]122660[/attach]

运行结果有三种导出方式,分别是json,URL-json和csv。可根据需要自行导出。


三、语法:

在return返回值时,需要注意使用%s,即占位符,来进行数据的调整,并且需要与%i相对应;

非常重要的一点是,python语句中的缩进问题,一旦缩进出现误差,代码就会报错;


四、注意事项:

1. 在面板页面点击run之后,得到的result是固定的,不会因为在内部修改代码之后重新运行得到新的结果,因此最好是在单个项目页面中调试完毕之后再出来点击run。

[attach]122661[/attach]


2. 想要删除项目时,首先将group选项填写delete,然后将status填写为stop,这样在24h之后项目会自动删除。

[attach]122662[/attach]


3. 由于浏览器问题,web页面显示不完全,因此可以通过调整f12中的开发工具对页面进行修改,修改位置如下:

[attach]122663[/attach]

默认的height值为"50%",由于个人浏览器分辨率问题,本人的电脑调整为"500",可根据个人电脑配置自行修改!




作者: Miss_love    时间: 2020-12-30 18:06
支持分享




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2