51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1171|回复: 4
打印 上一主题 下一主题

关于selenium爬虫程序所得数据前后不一的问题

[复制链接]
  • TA的每日心情
    无聊
    4 天前
  • 签到天数: 530 天

    连续签到: 2 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2022-4-24 09:56:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    1测试积点

    问题是这样,是用selenium制作了一个爬虫去爬某网站不同教授的文章发表数据数据。
    但是前期实验样本数量少的情况还好,没有遇到什么异常。
    但是后面当样本数量有大几千以后我发现了不同。就是用同一方法针对同一样本爬取的结果前后不一样
    我同一样本爬了三次,三次都不一样。但是出错的地方也每次不一样。
    例如:A教授第一次爬取的数据和第三次爬取的数据是一样的,但是和第二次是不一样的
    B教授第二次爬取的数据和第三次爬取的数据是一样的,但是和第一次是不一样的

    我用logging 看看了运行情况,发现了两个问题,
    1:爬虫在识别页面数的时候出错,例如有八页但是只识别到了一页,导致只能爬第一页,但是这个情况非常罕见,就出错过一次。但是代码逻辑毫无问题,也跟之前一样,第一次可能是A教授出错第二次可能就是B教授出错了

    2:第二个也是非常常见的一种情况,不同次爬取得到的数据不一样,比如第一次爬取到A教授51篇文章,第二次却只爬取到了50篇,缺少的这篇文章是随机缺少的,不是规律性的。比如第三次爬就又是51篇了

    请问可能是什么情况,网络丢包吗,具体信息可私信


    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    前天 08:51
  • 签到天数: 668 天

    连续签到: 6 天

    [LV.9]测试副司令

    2#
    发表于 2022-4-25 09:59:08 | 只看该作者
    丢包,加载
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    3 天前
  • 签到天数: 1521 天

    连续签到: 5 天

    [LV.Master]测试大本营

    3#
    发表于 2022-4-25 10:57:57 | 只看该作者
    分析下日志,看看是哪里的问题
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 10:15
  • 签到天数: 756 天

    连续签到: 1 天

    [LV.10]测试总司令

    4#
    发表于 2022-4-25 13:38:41 | 只看该作者
    看下日志
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2819 天

    连续签到: 1 天

    [LV.Master]测试大本营

    5#
    发表于 2022-4-25 14:12:32 | 只看该作者
    看看每一次识别数据的差异
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-25 08:35 , Processed in 0.065249 second(s), 22 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表