关于selenium爬虫程序所得数据前后不一的问题

测试积点老人 · 发表于 2022-4-24 09:56:14

问题是这样，是用selenium制作了一个爬虫去爬某网站不同教授的文章发表数据数据。
但是前期实验样本数量少的情况还好，没有遇到什么异常。
但是后面当样本数量有大几千以后我发现了不同。就是用同一方法针对同一样本爬取的结果前后不一样
我同一样本爬了三次，三次都不一样。但是出错的地方也每次不一样。
例如：A教授第一次爬取的数据和第三次爬取的数据是一样的，但是和第二次是不一样的
B教授第二次爬取的数据和第三次爬取的数据是一样的，但是和第一次是不一样的

我用logging 看看了运行情况，发现了两个问题，
1：爬虫在识别页面数的时候出错，例如有八页但是只识别到了一页，导致只能爬第一页，但是这个情况非常罕见，就出错过一次。但是代码逻辑毫无问题，也跟之前一样，第一次可能是A教授出错第二次可能就是B教授出错了

2：第二个也是非常常见的一种情况，不同次爬取得到的数据不一样，比如第一次爬取到A教授51篇文章，第二次却只爬取到了50篇，缺少的这篇文章是随机缺少的，不是规律性的。比如第三次爬就又是51篇了

请问可能是什么情况，网络丢包吗，具体信息可私信