51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 4145|回复: 3
打印 上一主题 下一主题

在用python爬取某吧吧友网名时,为啥不能全量爬取?

[复制链接]
  • TA的每日心情
    无聊
    昨天 09:47
  • 签到天数: 528 天

    连续签到: 1 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2021-5-24 13:21:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    1测试积点
    代码如下,请大神指正
    1. import requests
    2. from lxml import etree

    3. count = []
    4. response = requests.get("https://tieba.baidu.com/p/3183092174")#获取网页的html文件
    5. html = response.text#将HTML文件文本化
    6. content = etree.HTML(html)#将文本化文件转为element文件,便于etree.HTML函数进行解析
    7. link_list = content.xpath('//a[@class="p_author_name j_user_card"]/@href')#使用element文件的xpath方法,根据path特征值进行解析,找到的内容以列表形式返回
    8. print(len(link_list))
    9. for zhuye_url in link_list:
    10. link_zhuye_url = "https://tieba.baidu.com/" + zhuye_url
    11. response_one = requests.get(link_zhuye_url)
    12. html_one = response_one.text#将HTML文件文本化
    13. content_one = etree.HTML(html_one)
    14. link_list_one =content_one.xpath('//span[@class="userinfo_username "]/text()')
    15. count = count + link_list_one
    16. print(count)
    复制代码


    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 10:24
  • 签到天数: 1517 天

    连续签到: 1 天

    [LV.Master]测试大本营

    2#
    发表于 2021-5-25 10:11:49 | 只看该作者
    看下报错是什么
    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    昨天 14:30
  • 签到天数: 752 天

    连续签到: 1 天

    [LV.10]测试总司令

    3#
    发表于 2021-5-25 12:12:17 | 只看该作者
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2019-12-31 08:59
  • 签到天数: 975 天

    连续签到: 1 天

    [LV.10]测试总司令

    4#
    发表于 2021-5-31 11:00:52 | 只看该作者
    支持下
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-19 00:39 , Processed in 0.068001 second(s), 22 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表