在学习爬虫的过程中,知道了有pyspider这个神器,界面虽然简单但看着很方便,以下大概介绍一下各方面内容。
一、安装: 在命令行中pip install pyspider, 每次启动时都需要在命令行中输入pyspider, 在网页中打开localhost:5000 页面名叫dashboard,是pyspider的控制面板。 group代表分组,status中有stop,todo,running,Checking和debug五种模式,必须选择running或者debug模式时才能运行项目。progress和rate不用考虑太多,avg time是平均运行时长,actions中,有三个按键,分别代表运行,当前任务,和运行结果。
二、使用: 创建项目时,点击create,输入项目名称和目标网址,之后会进入新的页面,如下是爬取安居客网站上的房价数据案例: 新的页面必须点击右上角的save进行保存,否则退出时不会自动保存代码。 在该页面进行调试时,首先点击左侧输入框的run,之后点击下方的follow,下一步是出现的网址右侧的箭头,一步一步点击下去,会看到你提取出来的结果。 web按键是显示该网站的页面; html是显示该网站的源代码; message是显示代码运行信息; enable css selector helper是可以在点击web的前提下在该网站页面中选取元素,检查它们的标签。 爬取的结果如下所示: 运行结果有三种导出方式,分别是json,URL-json和csv。可根据需要自行导出。
三、语法: 在return返回值时,需要注意使用%s,即占位符,来进行数据的调整,并且需要与%i相对应; 非常重要的一点是,python语句中的缩进问题,一旦缩进出现误差,代码就会报错;
四、注意事项: 1. 在面板页面点击run之后,得到的result是固定的,不会因为在内部修改代码之后重新运行得到新的结果,因此最好是在单个项目页面中调试完毕之后再出来点击run。
2. 想要删除项目时,首先将group选项填写delete,然后将status填写为stop,这样在24h之后项目会自动删除。
3. 由于浏览器问题,web页面显示不完全,因此可以通过调整f12中的开发工具对页面进行修改,修改位置如下: 默认的height值为"50%",由于个人浏览器分辨率问题,本人的电脑调整为"500",可根据个人电脑配置自行修改!
|