51Testing软件测试论坛

标题: scrapy基本概念介绍 [打印本页]

作者: 姿态 时间: 2019-3-25 14:37
标题: scrapy基本概念介绍
scrapy 命令行工具

help：帮助信息（scrapy –help）
version：版本信息，可以添加-v查看scrapy各个组件的信息（scrapy version -v）
startproject：新建一个工程（scrapy startproject example）
genspider：产生一个spider（scrapy genspider example example.com）
list：查看本工程中包含的spiders
view：在浏览器中打开网页，这个网页就是scrapy处理的网页（scrapy view http://example.com）
parse：解析一个URL（使用对应的spider），打印结果
shell：可交互的scrapy爬取控制台
runspider：运行一个自包含的爬虫，即没有创建工程
bench：基准测试
scrapy的重要组件

Spider

基本介绍

Spider是一个类，它定义了怎样爬取一个网站，包括怎样跟踪链接、怎样提取数据。

执行流程：
- 根据start_urls产生初始Requests
- 解析responce
- 使用selector
- 存储items

zaobao Spider

基类介绍(scrapy.Spider)

属性
name：spider的名称，同一工程中唯一
allowed_domains：允许的域名
start_urls：初始urls
custom_settings：个性化设置，覆盖全局设置（settings.py）
crawler：抓取器，spider将绑定到它上面
settings：配置实例，包含工程中所有的配置变量
logger：日志实例
方法
from_crawler(crawler, *args, **kwargs)：类方法，用于创建spiders
start_requests()：生成初始的requests
make_requests_from_url(url)：根据url生成一个request
parse(response)：解析网页内容
log(message[, level, component])：兼容老版本
self.logger.info(“log内容”)
closed(reason)：当spider关闭的时候调用的方法
子类介绍

CrawlerSpider

最常用的spider，用于抓取普通网页
和基类比较增加了两个成员
rules：定义了一些抓取规则（链接怎么跟踪、使用哪一个parse函数解析此链接）
parse_start_url(response)：解析初始url产生的response
示例

[attach]123227[/attach]
XMLFeedSpiderCSVFeedSpiderSitemapSpiderSelector

scrapy默认使用Selector作为网页解析工具

实例化
[attach]123228[/attach]
常用方法

xpath
css
re
extract
extract_first

Item

示例

import scrapy
class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()

复制代码

Item Pipeline作用

清洗HTML数据
验证抓取到的数据（检查是否有数据）
检查是否重复（然后丢弃重复数据）
存储数据到数据库中

示例

from scrapy.exceptions import DropItem
class PricePipeline(object):
vat_factor = 1.15
def process_item(self, item, spider):
if item['price']:
if item['price_excludes_vat']:
item['price'] = item['price'] * self.vat_factor
return item
else:
raise DropItem("Missing price in %s" % item)

复制代码

激活pipeline

在settings.py里面设置

ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline': 300
}

复制代码

优先级0-1000，越小越优先

Feed exports

存储抓取到的数据

json

json lines

csv

xml

scrapy的重要对象

Request

scrapy.http.Request的初始化参数

url：必须

callback

method=‘GET’

headers

body