关于selenium爬虫程序所得数据前后不一的问题
问题是这样,是用selenium制作了一个爬虫去爬某网站不同教授的文章发表数据数据。但是前期实验样本数量少的情况还好,没有遇到什么异常。
但是后面当样本数量有大几千以后我发现了不同。就是用同一方法针对同一样本爬取的结果前后不一样
我同一样本爬了三次,三次都不一样。但是出错的地方也每次不一样。
例如:A教授第一次爬取的数据和第三次爬取的数据是一样的,但是和第二次是不一样的
B教授第二次爬取的数据和第三次爬取的数据是一样的,但是和第一次是不一样的我用logging 看看了运行情况,发现了两个问题,
1:爬虫在识别页面数的时候出错,例如有八页但是只识别到了一页,导致只能爬第一页,但是这个情况非常罕见,就出错过一次。但是代码逻辑毫无问题,也跟之前一样,第一次可能是A教授出错第二次可能就是B教授出错了2:第二个也是非常常见的一种情况,不同次爬取得到的数据不一样,比如第一次爬取到A教授51篇文章,第二次却只爬取到了50篇,缺少的这篇文章是随机缺少的,不是规律性的。比如第三次爬就又是51篇了请问可能是什么情况,网络丢包吗,具体信息可私信
丢包,加载 分析下日志,看看是哪里的问题 看下日志 看看每一次识别数据的差异
页:
[1]