只需一步,快速开始
微信登录,快人一步
手机号码,快捷登录
签到天数: 530 天
连续签到: 2 天
[LV.9]测试副司令
问题是这样,是用selenium制作了一个爬虫去爬某网站不同教授的文章发表数据数据。 但是前期实验样本数量少的情况还好,没有遇到什么异常。 但是后面当样本数量有大几千以后我发现了不同。就是用同一方法针对同一样本爬取的结果前后不一样 我同一样本爬了三次,三次都不一样。但是出错的地方也每次不一样。 例如:A教授第一次爬取的数据和第三次爬取的数据是一样的,但是和第二次是不一样的 B教授第二次爬取的数据和第三次爬取的数据是一样的,但是和第一次是不一样的
我用logging 看看了运行情况,发现了两个问题, 1:爬虫在识别页面数的时候出错,例如有八页但是只识别到了一页,导致只能爬第一页,但是这个情况非常罕见,就出错过一次。但是代码逻辑毫无问题,也跟之前一样,第一次可能是A教授出错第二次可能就是B教授出错了
2:第二个也是非常常见的一种情况,不同次爬取得到的数据不一样,比如第一次爬取到A教授51篇文章,第二次却只爬取到了50篇,缺少的这篇文章是随机缺少的,不是规律性的。比如第三次爬就又是51篇了
请问可能是什么情况,网络丢包吗,具体信息可私信
我来回答
使用道具 举报
签到天数: 2819 天
连续签到: 1 天
[LV.Master]测试大本营
签到天数: 756 天
[LV.10]测试总司令
签到天数: 1521 天
连续签到: 5 天
签到天数: 668 天
连续签到: 6 天
本版积分规则 发表回复
查看 »
小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 ) 关于我们
GMT+8, 2024-11-25 08:23 , Processed in 0.066005 second(s), 22 queries .
Powered by Discuz! X3.2
© 2001-2024 Comsenz Inc.