51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

查看: 1630|回复: 1
打印 上一主题 下一主题

pyspider爬虫初学笔记

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2019-3-7 14:57:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

在学习爬虫的过程中,知道了有pyspider这个神器,界面虽然简单但看着很方便,以下大概介绍一下各方面内容。


一、安装:

在命令行中pip install pyspider,

每次启动时都需要在命令行中输入pyspider,

在网页中打开localhost:5000

页面名叫dashboard,是pyspider的控制面板。

group代表分组,status中有stop,todo,running,Checking和debug五种模式,必须选择running或者debug模式时才能运行项目。progress和rate不用考虑太多,avg time是平均运行时长,actions中,有三个按键,分别代表运行,当前任务,和运行结果。


二、使用:

创建项目时,点击create,输入项目名称和目标网址,之后会进入新的页面,如下是爬取安居客网站上的房价数据案例:

新的页面必须点击右上角的save进行保存,否则退出时不会自动保存代码。

在该页面进行调试时,首先点击左侧输入框的run,之后点击下方的follow,下一步是出现的网址右侧的箭头,一步一步点击下去,会看到你提取出来的结果。

web按键是显示该网站的页面;

html是显示该网站的源代码;

message是显示代码运行信息;

enable css selector helper是可以在点击web的前提下在该网站页面中选取元素,检查它们的标签。

爬取的结果如下所示:

运行结果有三种导出方式,分别是json,URL-json和csv。可根据需要自行导出。


三、语法:

在return返回值时,需要注意使用%s,即占位符,来进行数据的调整,并且需要与%i相对应;

非常重要的一点是,python语句中的缩进问题,一旦缩进出现误差,代码就会报错;


四、注意事项:

1. 在面板页面点击run之后,得到的result是固定的,不会因为在内部修改代码之后重新运行得到新的结果,因此最好是在单个项目页面中调试完毕之后再出来点击run。


2. 想要删除项目时,首先将group选项填写delete,然后将status填写为stop,这样在24h之后项目会自动删除。


3. 由于浏览器问题,web页面显示不完全,因此可以通过调整f12中的开发工具对页面进行修改,修改位置如下:

默认的height值为"50%",由于个人浏览器分辨率问题,本人的电脑调整为"500",可根据个人电脑配置自行修改!



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

本版积分规则

关闭

站长推荐上一条 /1 下一条

小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

GMT+8, 2024-4-23 16:41 , Processed in 0.064581 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2024 Comsenz Inc.

快速回复 返回顶部 返回列表