TA的每日心情 | 擦汗 3 小时前 |
---|
签到天数: 1047 天 连续签到: 5 天 [LV.10]测试总司令
|
为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示,带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定位,或者直接获取xhr请求返回内容的做法。
- import json
- from selenium import webdriver
- from selenium.webdriver import DesiredCapabilities
- import os,time
复制代码 配置浏览器启动参数:
- def get_log_options():
- option = webdriver.ChromeOptions()
- option.add_argument('--no-sandbox')
- #option.add_argument('--headless') # 设置无头浏览
- option.add_argument("--disable-extensions")
- option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示
- option.add_argument("--allow-running-insecure-content")
- option.add_argument("--ignore-certificate-errors")
- option.add_argument("--disable-single-click-autofill")
- option.add_argument("--disable-autofill-keyboard-accessory-view[8]")
- option.add_argument("--disable-full-form-autofill-ios")
- option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0')
- option.add_experimental_option('w3c', False)
- option.add_experimental_option('perfLoggingPrefs', {
- 'enableNetwork': True,
- 'enablePage': False,
- })
- option.add_experimental_option('prefs',{
- #不弹出去请求
- 'profile.default_content_settings.popups':0,
- #设置默认下载文件目录
- 'download.default_directory':save_folder,
- # 禁止提示
- 'profile.default_content_setting_values':{
- 'notifications': 2
- }
- })
- return option
-
-
- def get_caps():
- caps = DesiredCapabilities.CHROME
- caps['loggingPrefs'] = {
- 'browser': 'ALL',
- 'performance': 'ALL',
- }
- caps['perfLoggingPrefs'] = {
- 'enableNetwork': True,
- 'enablePage': False,
- 'enableTimeline': False
- }
- return caps
复制代码- # 获取日志中的xhr结果
- def get_xhr_logs(chrome):
- log_xhr_array = []
- for typelog in chrome.log_types:
- perfs = chrome.get_log(typelog)
- for row in perfs:
- log_data = row
- message_ = log_data['message']
- try:
- log_json = json.loads(message_)
- log = log_json['message']
- if log['method'] == 'Network.responseReceived':
- # 去掉静态js、css等,仅保留xhr请求
- type_ = log['params']['type']
- if type_ == "XHR":
- log_xhr_array.append(log)
- except:
- pass
- return log_xhr_array
- # 根据id获取返回结果
- def get_xhr_body(driver, requestId):
- response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
- return response_body
复制代码 考虑部分xhr请求较慢,增加一个判断指定请求是否完成的函数来判断执行情况。
- # 等待直到某个xhr出现,返回整个异步情况吧
- def wait_until_xhr_do(url='',limit = 10):
- tick = 0
- while tick < limit:
- logs = get_xhr_logs(chrome)
- if url == '':
- if len(logs) > 0:
- return logs
- else:
- for log in logs:
- if url in logs['params']['response']['url']:
- return logs
- tick = tick + 1
- return []
复制代码 最终案例参考:
- if __name__ == '__main__':
- # 使用工具类来获取options配置,而不是平时的webdriver.ChromeOptions()方法
- options = get_log_options()
- # 使用工具类来获取caps
- desired_capabilities = get_caps()
- # 这里也可以对options和caps加入其他的参数,比如代理参数等
- chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities)
- chrome.get("https://spa6.scrape.center/") # "https://www.baidu.com/"
- chrome.maximize_window()
-
- # 点击下一页
- el= chrome.find_element_by_xpath('//button[@class="btn-next"]')
- el.click()
- # 执行等待
- logs = wait_until_xhr_do()
- # 输出结果
- if len(logs) > 0:
- print(logs[0]['params']['response']['url'])
- body = get_xhr_body(chrome, logs[0]['params']['requestId'])
- # 使用eval转换遇到null会有问题,改为使用Json转换
- response = json.loads((body['body']))
- print(response)
复制代码
|
|