51Testing软件测试论坛

标题: 在用python爬取某吧吧友网名时,为啥不能全量爬取? [打印本页]

作者: 测试积点老人    时间: 2021-5-24 13:21
标题: 在用python爬取某吧吧友网名时,为啥不能全量爬取?
代码如下,请大神指正
  1. import requests
  2. from lxml import etree

  3. count = []
  4. response = requests.get("https://tieba.baidu.com/p/3183092174")#获取网页的html文件
  5. html = response.text#将HTML文件文本化
  6. content = etree.HTML(html)#将文本化文件转为element文件,便于etree.HTML函数进行解析
  7. link_list = content.xpath('//a[@class="p_author_name j_user_card"]/@href')#使用element文件的xpath方法,根据path特征值进行解析,找到的内容以列表形式返回
  8. print(len(link_list))
  9. for zhuye_url in link_list:
  10. link_zhuye_url = "https://tieba.baidu.com/" + zhuye_url
  11. response_one = requests.get(link_zhuye_url)
  12. html_one = response_one.text#将HTML文件文本化
  13. content_one = etree.HTML(html_one)
  14. link_list_one =content_one.xpath('//span[@class="userinfo_username "]/text()')
  15. count = count + link_list_one
  16. print(count)
复制代码



作者: qqq911    时间: 2021-5-25 10:11
看下报错是什么
作者: bellas    时间: 2021-5-25 12:12

作者: Miss_love    时间: 2021-5-31 11:00
支持下




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2