设为首页收藏本站

开启辅助访问软件测试门户软件测试培训软件测试论坛测试解决方案文章资料精选软件测试博客软件测试招聘

51Testing软件测试论坛 »软件测试论坛 › [管理工具] › [自动化测试工具及框架] › Scrapy 入门：Hello Scrapy

发新帖

查看: 1476|回复: 2

上一主题

下一主题

Scrapy 入门：Hello Scrapy

该用户从未签到

电梯直达

跳转到指定楼层

1^#

发表于 2019-2-21 17:09:06 | 只看该作者回帖奖励

回帖奖励

|倒序浏览 |阅读模式

scrapy install

官方文档方式
其实现在scrapy 的文档做的挺好，安装文档在首页就有点我点我。
下面说说我的另类安装方法，我说这个方法，在某些方面有优势，但不是绝对优势，利弊自己取舍。
Windows 自定义安装
- 打开 https://pypi.python.org 。
- 在页面的搜索框中输入 scrapy，开始搜索，找到最新的版本，我这个时候是https://pypi.python.org/pypi/Scrapy/1.0.3。
- 翻页到页面的最底部，找到 Requires Distributions 部分，看看都有啥，我这里的是：Twisted(>=10.0.0)，w3lib (>=1.8.0)， queuelib， lxml， pyOpenSSL， cssselect (>=0.9)， six (>=1.5.2)， service-identity。
- 对于上面的依赖，依次尝试 5，6步。
- 在 cmd 下面执行命令 pip install xxxx，如果提示安装成功，跳过第6步，接着安装下一个。
- 去 Google 搜索 xxxx msi {version} 这里的version请填写满足依赖条件的版本号, 认准了 pypi.python.org 的域名，点进去，找到msi的下载包，下载下来进行安装。
- 到这里，依赖已经安装完毕，执行 pip install scrapy。如果最后提示成功，说明你的安装成功了。
Ubuntu 自定义安装
- Ubuntu 安装最简单的方式当然是官方的 ppa 安装了啊。
- Ubuntu 通过pip 安装最重要的是 pip 需要的各种库:

apt-get install -y python-dev gcc libxml2-dev libxslt1-dev libffi-dev python-pip
pip install -U pip
pip install lxml twisted cryptography
pip install scrapy

复制代码

Mac 自定义安装

pip install scrapy

复制代码

scrapy bootstrap

装好之后，当然就是 hello-scrapy 的时间了。
使用下列命令新建一个工程

scrapy startproject Demo

复制代码

使用下列命令进入目录，然后新建一个 Spider 来工作，这里是使用的名称为 MeiSpider, 抓取 bj.meituan.com 的数据。

cd Demo
scrapy genspider MeiSpider bj.meituan.com

复制代码

执行之后的目录结构如下：

├── Demo
│ ├── __init__.py
│ ├── items.py # item
│ ├── pipelines.py # pipeline
│ ├── settings.py # project setting file
│ └── spiders
│ ├── __init__.py
│ └── MeiSpider.py # genspider generatored spider file
└── scrapy.cfg # configuration file
2 directories, 10 files

复制代码

查询下现在的 spiders，

$ scrapy list
MeiSpider # 刚刚新建的 MeiSpider

复制代码

在项目 Demo 下面的 spiders 目录中就有了我们刚生成的 MeiSpider.py 文件，打开这个文件，看看内容：

# -*- coding: utf-8 -*-
import scrapy
class MeispiderSpider(scrapy.Spider):
name = "MeiSpider"
allowed_domains = ["bj.meituan.com"]
start_urls = (
'http://www.bj.meituan.com/',
)
def parse(self, response):
pass

复制代码

注意一下，生成的代码里面的 start_urls 中的 url 有错误，我们手动改成 bj.meituan.com 。
如果你迫不及待的想尝试下效果，可以试试这个：

scrapy crawl MeiSpider --nolog

复制代码

哈哈，是不是什么结果也没有！对啊，因为我们还没告诉　Spider 该怎么工作。这个就是 Spider 中 parse 方法的作用了，我们尝试把 parse 改成这样

def parse(self, response):
return {'desc', 'hello scrapy'， "url": response.url}

复制代码

接着运行 scrapy crawl MeiSpider -t jsonlines --nolog -o - 是不是很有意思，出来了结果了，这样，一个简单的 Hello-Scrapy 就完成了。

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

【喜讯】51微信互动平台签到赚积点上线了

回复

使用道具举报

还有一些帖子被系统自动隐藏，点此展开

发新帖

站长推荐 /1

小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 ) 关于我们

GMT+8, 2024-11-23 11:36 , Processed in 0.064891 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2024 Comsenz Inc.

快速回复 返回顶部 返回列表