Selenium爬取异步加载的网站

lsekfe · 发表于 2022-8-4 10:00:23

为了便利化使用selenium驱动浏览器进行操作，遇到一个网页，大部分内容都是通过xhr请求后再通过前端js处理显示，带来的一个问题就是，采用显示等待无法准确的定位到需要的节点。因此，需要考虑采用判断xhr请求是否完成后再进行定位，或者直接获取xhr请求返回内容的做法。

　import json
　　from selenium import webdriver
　　from selenium.webdriver import DesiredCapabilities
　　import os,time

复制代码

配置浏览器启动参数：

def get_log_options():
　　 option = webdriver.ChromeOptions()
　　 option.add_argument('--no-sandbox')
　　 #option.add_argument('--headless') # 设置无头浏览
　　 option.add_argument("--disable-extensions")
　　 option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示
　　 option.add_argument("--allow-running-insecure-content")
　　 option.add_argument("--ignore-certificate-errors")
　　 option.add_argument("--disable-single-click-autofill")
　　 option.add_argument("--disable-autofill-keyboard-accessory-view[8]")
　　 option.add_argument("--disable-full-form-autofill-ios")
　　 option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0')
　　 option.add_experimental_option('w3c', False)
　　 option.add_experimental_option('perfLoggingPrefs', {
　　 'enableNetwork': True,
　　 'enablePage': False,
　　 })
　　 option.add_experimental_option('prefs',{
　　 #不弹出去请求
　　 'profile.default_content_settings.popups':0,
　　 #设置默认下载文件目录
　　 'download.default_directory':save_folder,
　　 # 禁止提示
　　 'profile.default_content_setting_values':{
　　 'notifications': 2
　　 }
　　 })
　　 return option
　　
　　
　　def get_caps():
　　 caps = DesiredCapabilities.CHROME
　　 caps['loggingPrefs'] = {
　　 'browser': 'ALL',
　　 'performance': 'ALL',
　　 }
　　 caps['perfLoggingPrefs'] = {
　　 'enableNetwork': True,
　　 'enablePage': False,
　　 'enableTimeline': False
　　 }
　　 return caps

复制代码

　# 获取日志中的xhr结果
　　def get_xhr_logs(chrome):
　　 log_xhr_array = []
　　 for typelog in chrome.log_types:
　　 perfs = chrome.get_log(typelog)
　　 for row in perfs:
　　 log_data = row
　　 message_ = log_data['message']
　　 try:
　　 log_json = json.loads(message_)
　　 log = log_json['message']
　　 if log['method'] == 'Network.responseReceived':
　　 # 去掉静态js、css等，仅保留xhr请求
　　 type_ = log['params']['type']
　　 if type_ == "XHR":
　　 log_xhr_array.append(log)
　　 except:
　　 pass
　　 return log_xhr_array
　　# 根据id获取返回结果
　　def get_xhr_body(driver, requestId):
　　 response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
　　 return response_body

复制代码

考虑部分xhr请求较慢，增加一个判断指定请求是否完成的函数来判断执行情况。

　# 等待直到某个xhr出现,返回整个异步情况吧
　　def wait_until_xhr_do(url='',limit = 10):
　　 tick = 0
　　 while tick < limit:
　　 logs = get_xhr_logs(chrome)
　　 if url == '':
　　 if len(logs) > 0:
　　 return logs
　　 else:
　　 for log in logs:
　　 if url in logs['params']['response']['url']:
　　 return logs
　　 tick = tick + 1
　　 return []

复制代码

最终案例参考：

if __name__ == '__main__':
　　 # 使用工具类来获取options配置，而不是平时的webdriver.ChromeOptions()方法
　　 options = get_log_options()
　　 # 使用工具类来获取caps
　　 desired_capabilities = get_caps()
　　 # 这里也可以对options和caps加入其他的参数，比如代理参数等
　　 chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities)
　　 chrome.get("https://spa6.scrape.center/") # "https://www.baidu.com/"
　　 chrome.maximize_window()
　　
　　 # 点击下一页
　　 el= chrome.find_element_by_xpath('//button[@class="btn-next"]')
　　 el.click()
　　 # 执行等待
　　 logs = wait_until_xhr_do()
　　 # 输出结果
　　 if len(logs) > 0:
　　 print(logs[0]['params']['response']['url'])
　　 body = get_xhr_body(chrome, logs[0]['params']['requestId'])
　　 # 使用eval转换遇到null会有问题，改为使用Json转换
　　 response = json.loads((body['body']))
　　 print(response)

复制代码

		自动登录	找回密码
密码			(注-册)加入51Testing

[转贴] Selenium爬取异步加载的网站

站长推荐 /1