Scrapy框架下的Selenium模拟登录 - 51Testing软件测试论坛

pip install scrapy
pip install selenium

复制代码

scrapy startproject testSpider

复制代码

cd testSpider
scrapy genspider myspider example.com

复制代码

import scrapy
　　class MyspiderSpider(scrapy.Spider):
　　 name = 'myspider'
　　 allowed_domains = ['example.com']
　　 start_urls = ['http://example.com/']
　　 def parse(self, response):
pass

复制代码

import scrapy
　　from selenium.webdriver.chrome.options import Options
　　from selenium import webdriver
　　from selenium.webdriver.common.by import By
　　from selenium.webdriver.support.wait import WebDriverWait
　　from selenium.webdriver.support import expected_conditions as EC
　　class MyspiderSpider(scrapy.Spider):
　　 name = 'myspider'
　　 allowed_domains = ['portal.qiniu.com'] # 注意设置好允许爬取的网址列表，这里踩了坑，试了半天发现框架默认的解析器一直没有调用，要写网址的整合域名而不是单单一级域名。
　　 start_urls = ['http://example.com/']
　　 user_name = '********@**.com'
　　 password = '********'
　　 chorme_options = Options()
　　 chorme_options.add_argument("--disable-gpu")
　　 driver = webdriver.Chrome(options=chorme_options) # 初始化Chrome驱动
　　 driver.implicitly_wait(20)
　　 headers = {
　　 'authority': 'portal.qiniu.com',
　　 'accept': '*/*',
　　 'accept-language': 'zh-CN,zh;q=0.9',
　　 'cache-control': 'no-cache',
　　 'referer': 'https://portal.qiniu.com/certificate/ssl',
　　 'sec-ch-ua': '".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"',
　　 'sec-ch-ua-mobile': '?0',
　　 'sec-ch-ua-platform': '"Windows"',
　　 'sec-fetch-dest': 'empty',
　　 'sec-fetch-mode': 'cors',
　　 'sec-fetch-site': 'same-origin',
　　 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36',
　　 } # header
　　 cookie = {}
　　 def __del__(self):
　　 self.driver.close()
　　 def parse(self, response, *args, **kwargs):
　　 print('默认的解析器方法，接口请求内容：')
　　 print(response.json())
　　 def start_requests(self):
　　 self.driver.get(url='https://sso.qiniu.com/') # 直接访问登录页
　　 user_input = self.driver.find_element(By.ID, 'email') # 获取用户名输入框
　　 user_input.send_keys(self.user_name) # 输入用户名
　　 password_input = self.driver.find_element(By.ID, 'password') # 获取密码框
　　 password_input.send_keys(self.password) # 输入密码
　　 self.driver.find_element(By.ID, 'login-button').click() # 登录
　　 try:
　　 WebDriverWait(self.driver, 60).until(EC.visibility_of_element_located(
　　 (By.CLASS_NAME, "user-plane-entry"))) # 等待网页跳转，超时等待60秒
　　 except:
　　 print('登陆超时，失败') # 等待超过了60
　　 self.driver.quit()
　　 self.cookie = self.driver.get_cookies() # 获取cookie 此时是键值对
　　 print(self.cookie)
　　 print(self.headers)
　　 yield scrapy.Request(url='https://portal.qiniu.com/api/gaea/billboard/list?status=1', callback=self.parse,
　　 cookies=self.cookie,
headers=self.headers) # 迭代器放入异步任务中请求

复制代码