51Testing软件测试论坛

标题: selenium怎么获取全部的粉丝和文章内容并且写进excel表? [打印本页]

作者: 测试积点老人    时间: 2022-1-4 10:29
标题: selenium怎么获取全部的粉丝和文章内容并且写进excel表?
问题遇到的现象和发生背景
无法获取全部数据,不知道文章和粉丝之间的页面的数据怎么进行连接
  1. from selenium import webdriver
  2. import random

  3. from selenium.webdriver.common.keys import Keys
  4. import time
  5. import re


  6. # user_ = input('请输入账号:')
  7. # password = input('请输入密码:')
  8. url = "https://weibo.com/login.php"
  9. dirver = webdriver.Chrome()
  10. dirver.get(url)
  11. time.sleep(0.5)
  12. dirver.maximize_window()


  13. dirver.find_element_by_id('loginname').send_keys('18327862307')
  14. time.sleep(2)


  15. dirver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys('love572461914')
  16. time.sleep(2)
  17. dirver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
  18. time.sleep(20)

  19. # 登录进入六星网页
  20. url_six = "https://weibo.com/liuxingedu"
  21. dirver.get(url_six)
  22. time.sleep(2)
  23. # dirver.find_element_by_xpath('//*[@id="__sidebar"]/div/div[1]/div/div[2]/div/div[1]/div[1]/div[2]/div[2]').click()

  24. # 进行页面滚动
  25. for i in range(1,1000):
  26.     js="var q=document.documentElement.scrollTop=%s"%(i*300)
  27.     time.sleep(0.3)
  28.     dirver.execute_script(js)

  29. # 获取文章内容
  30. title_url = "https://weibo.com/ajax/statuses/mymblog?uid=7617227236&page=1&feature=0"
  31. dirver.get(title_url)
  32. titles = dirver.find_elements_by_xpath('//*[@id="app"]/div[1]/div[2]/div[2]/main/div[1]/div/div[2]/div[2]')
  33. for title in titles:
  34.     print(1,title.text)

  35. # 点击进入粉丝页
  36. dirver.find_element_by_xpath('//*[@id="app"]/div[1]/div[2]/div[2]/main/div[1]/div/div[2]/div[1]/div[1]/div[2]/div[2]/div[2]/a[1]').click()

  37. fans_url = 'https://weibo.com/u/page/follow/7617227236?relate=fans'
  38. dirver.get(fans_url)
  39. fans_list = []
  40. fans_nums = dirver.find_elements_by_class_name('vue-recycle-scroller__item-view')
  41. for fans in fans_nums:
  42.     f_dict = {fans}
  43.     fans_list.append(f_dict)
  44. print(fans_list)

  45. # 进行页面滚动
  46. for i in range(1,1000):
  47.     js="var q=document.documentElement.scrollTop=%s"%(i*300)
  48.     time.sleep(0.3)
  49.     dirver.execute_script(js)
复制代码



作者: qqq911    时间: 2022-1-5 10:46
参考下爬虫的方式




欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/) Powered by Discuz! X3.2