jackman 发表于 2015-12-8 11:31:57

爬虫采集数据的性能测试方法

要对一个爬虫数据采集系统进行性能测试
该系统采用混合蜘蛛技术和变频抓取技术,在采集数据的中间处理环节对封闭系统采用Pipeline技术,对热门微博、贴吧、新闻网页的数据进行采集(主要是文字)
采集时间的性能标准是3分钟以内,这个做性能测试要怎么做?求教

jingzizx 发表于 2015-12-9 14:59:32

没做过,看你的意思,是不是考察程序在3分钟内采集数据的能力
那就是运行程序3分钟,然后查看采集的数据

zhuruize 发表于 2015-12-9 15:30:27

根据你的描述,我理解你的业务是,使用“采集系统”对不同的网站进行数据抓取;主要的测试目的是,看是不是每个网站的抓取时间都是在3分钟内完成;
所以,你的测试可以这么做:
写多点网站,长时间运行你这个采集系统就行了。然后把抓取的时间打印一下。看看3分钟内有没完成了。

msnshow 发表于 2015-12-13 11:09:14

这种不需要工具,直接根据需求要手工检查就行了
页: [1]
查看完整版本: 爬虫采集数据的性能测试方法