在学习爬虫的过程中,知道了有pyspider这个神器,界面虽然简单但看着很方便,以下大概介绍一下各方面内容。
一、安装:
在命令行中pip install pyspider,
[attach]122656[/attach]
每次启动时都需要在命令行中输入pyspider,
[attach]122657[/attach]
在网页中打开localhost:5000
[attach]122658[/attach]
页面名叫dashboard,是pyspider的控制面板。
group代表分组,status中有stop,todo,running,Checking和debug五种模式,必须选择running或者debug模式时才能运行项目。progress和rate不用考虑太多,avg time是平均运行时长,actions中,有三个按键,分别代表运行,当前任务,和运行结果。
二、使用:
创建项目时,点击create,输入项目名称和目标网址,之后会进入新的页面,如下是爬取安居客网站上的房价数据案例:
[attach]122659[/attach]
新的页面必须点击右上角的save进行保存,否则退出时不会自动保存代码。
在该页面进行调试时,首先点击左侧输入框的run,之后点击下方的follow,下一步是出现的网址右侧的箭头,一步一步点击下去,会看到你提取出来的结果。
web按键是显示该网站的页面;
html是显示该网站的源代码;
message是显示代码运行信息;
enable css selector helper是可以在点击web的前提下在该网站页面中选取元素,检查它们的标签。
爬取的结果如下所示:
[attach]122660[/attach]
运行结果有三种导出方式,分别是json,URL-json和csv。可根据需要自行导出。
三、语法:
在return返回值时,需要注意使用%s,即占位符,来进行数据的调整,并且需要与%i相对应;
非常重要的一点是,python语句中的缩进问题,一旦缩进出现误差,代码就会报错;
四、注意事项:
1. 在面板页面点击run之后,得到的result是固定的,不会因为在内部修改代码之后重新运行得到新的结果,因此最好是在单个项目页面中调试完毕之后再出来点击run。
[attach]122661[/attach]
2. 想要删除项目时,首先将group选项填写delete,然后将status填写为stop,这样在24h之后项目会自动删除。
[attach]122662[/attach]
3. 由于浏览器问题,web页面显示不完全,因此可以通过调整f12中的开发工具对页面进行修改,修改位置如下:
[attach]122663[/attach]
默认的height值为"50%",由于个人浏览器分辨率问题,本人的电脑调整为"500",可根据个人电脑配置自行修改!
欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) | Powered by Discuz! X3.2 |