写爬虫，到底是选scrapy还是selenium呢 - 51Testing软件测试论坛

'''
　　Created on 2021年7月22日
　　@author: qguan
　　'''
　　import re
　　from time import sleep
　　from selenium import webdriver
　　# 初始化驱动对象
　　driver=webdriver.Chrome(executable_path="../chromedriver.exe")
　　driver.implicitly_wait(30)
　　driver.maximize_window()
　　# 打开目标网址
　　url="https://www.xxxxyin.com/search/%E4%B8%8A%E6%B5%B7%E6%95%B4%E5%9E%8B"
　　driver.get(url)
　　# 可能是反扒的原因，有拼图验证
　　sleep(5) # 这里手动，用于测试
　　# 可以使用图像处理，处理滑块验证
　　# 最后当然是使用无头模式
　　# 获取当前句柄，后面页面切换使用
　　# handler=driver.current_window_handle
　　# 获取当前结果页的所有元素集
　　video_pic=driver.find_elements_by_xpath("//div[@style='display: block;']/ul/li/div/a[1]")
　　# 计数器
　　i=1
　　for video in video_pic:
　　 # 遍历点击元素
　　 video.click()
　　 # 获取浏览器所有句柄
　　 handlers=driver.window_handles
　　 # 切换最新的那一个
　　 driver.switch_to_window(handlers[-1])
　　
　　 # 获取跳转页面元素：标题、点赞、评论、发布时间、用户名
　　 titles=driver.find_elements_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/h1/span[2]/span/span/span/span")
　　 if len(titles)>0:
　　 title=""
　　 for tit in titles:
　　 title+=tit.text
　　 else:
　　 title="没有获取到完整的title"
　　
　　 praise=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[1]/div[1]/span").text
　　 comment=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[1]/div[2]/span").text
　　 open_time=driver.find_element_by_xpath("//div/div[2]/div[1]/div[1]/div[1]/div[2]/div/div[2]/span").text
　　
　　 # 视频作者名称
　　 username=driver.find_element_by_xpath("//div/div[2]/div[1]/div[2]/div/div[1]/div[2]/a/div/span/span/span/span/span")
　　
　　 # 点击用户名跳转用户详情页
　　 username.click()
　　
　　 # 获取当前页的url地址后，就关闭当前页面
　　 c_url=driver.current_url
　　 driver.close() # 为什么关闭不了
　　
　　 param_url=c_url.split("?")[1] # 拆分url地址?拼接的参数
　　 # 正则匹配，提取用户视频id、用户id
　　 author_id=re.findall("(\d{11})",param_url)[0]
　　 group_id=re.findall(r"(\d{19})",param_url)[0]
　　
　　 # 控制台输出结果
　　 print("第{}条,视频title:{},作品id:{},用户id:{},评论数:{},点赞数:{},发布时间:{}".format(i,title,group_id,author_id,comment,praise,open_time))
　　
　　 # 切换第一页
　　 driver.switch_to_window(handlers[0])
　　
　　 i+=1 # 计数器加1
　　
　　# 退出driver驱动
　　driver.quit()

复制代码