51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 863|回复: 0
打印 上一主题 下一主题

[转贴] Selenium爬取异步加载的网站

[复制链接]
  • TA的每日心情
    擦汗
    3 小时前
  • 签到天数: 1047 天

    连续签到: 5 天

    [LV.10]测试总司令

    跳转到指定楼层
    1#
    发表于 2022-8-4 10:00:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
          为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示,带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定位,或者直接获取xhr请求返回内容的做法。
    1.  import json
    2.   from selenium import webdriver
    3.   from selenium.webdriver import DesiredCapabilities
    4.   import os,time
    复制代码
    配置浏览器启动参数:
    1. def get_log_options():
    2.       option = webdriver.ChromeOptions()
    3.       option.add_argument('--no-sandbox')
    4.       #option.add_argument('--headless')  # 设置无头浏览
    5.       option.add_argument("--disable-extensions")
    6.       option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示
    7.       option.add_argument("--allow-running-insecure-content")
    8.       option.add_argument("--ignore-certificate-errors")
    9.       option.add_argument("--disable-single-click-autofill")
    10.       option.add_argument("--disable-autofill-keyboard-accessory-view[8]")
    11.       option.add_argument("--disable-full-form-autofill-ios")
    12.       option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0')
    13.       option.add_experimental_option('w3c', False)
    14.       option.add_experimental_option('perfLoggingPrefs', {
    15.           'enableNetwork': True,
    16.           'enablePage': False,
    17.       })
    18.       option.add_experimental_option('prefs',{
    19.           #不弹出去请求
    20.           'profile.default_content_settings.popups':0,
    21.           #设置默认下载文件目录
    22.           'download.default_directory':save_folder,
    23.           # 禁止提示
    24.           'profile.default_content_setting_values':{
    25.               'notifications': 2
    26.           }
    27.       })
    28.       return option
    29.   
    30.      
    31.   def get_caps():
    32.       caps = DesiredCapabilities.CHROME
    33.       caps['loggingPrefs'] = {
    34.           'browser': 'ALL',
    35.           'performance': 'ALL',
    36.       }
    37.       caps['perfLoggingPrefs'] = {
    38.           'enableNetwork': True,
    39.           'enablePage': False,
    40.           'enableTimeline': False
    41.       }
    42.       return caps
    复制代码
    1.  # 获取日志中的xhr结果
    2.   def get_xhr_logs(chrome):
    3.       log_xhr_array = []
    4.       for typelog in chrome.log_types:
    5.           perfs = chrome.get_log(typelog)
    6.           for row in perfs:
    7.               log_data = row
    8.               message_ = log_data['message']
    9.               try:
    10.                   log_json = json.loads(message_)
    11.                   log = log_json['message']
    12.                   if log['method'] == 'Network.responseReceived':
    13.                       # 去掉静态js、css等,仅保留xhr请求
    14.                       type_ = log['params']['type']
    15.                       if type_ == "XHR":
    16.                           log_xhr_array.append(log)
    17.               except:
    18.                   pass
    19.       return log_xhr_array
    20.   # 根据id获取返回结果
    21.   def get_xhr_body(driver, requestId):
    22.       response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
    23.       return response_body
    复制代码
    考虑部分xhr请求较慢,增加一个判断指定请求是否完成的函数来判断执行情况。
    1.  # 等待直到某个xhr出现,返回整个异步情况吧
    2.   def wait_until_xhr_do(url='',limit = 10):
    3.       tick = 0
    4.       while tick < limit:
    5.           logs = get_xhr_logs(chrome)
    6.           if url == '':
    7.               if len(logs) > 0:
    8.                   return logs
    9.           else:
    10.               for log in logs:
    11.                   if url in logs['params']['response']['url']:
    12.                       return logs
    13.           tick = tick + 1
    14.       return []
    复制代码
    最终案例参考:
    1. if __name__ == '__main__':
    2.       # 使用工具类来获取options配置,而不是平时的webdriver.ChromeOptions()方法
    3.       options = get_log_options()
    4.       # 使用工具类来获取caps
    5.       desired_capabilities = get_caps()
    6.       # 这里也可以对options和caps加入其他的参数,比如代理参数等
    7.       chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities)
    8.       chrome.get("https://spa6.scrape.center/")  # "https://www.baidu.com/"
    9.       chrome.maximize_window()
    10.      
    11.       # 点击下一页
    12.       el= chrome.find_element_by_xpath('//button[@class="btn-next"]')
    13.       el.click()
    14.       # 执行等待
    15.       logs = wait_until_xhr_do()
    16.       # 输出结果
    17.       if len(logs) > 0:
    18.           print(logs[0]['params']['response']['url'])
    19.           body = get_xhr_body(chrome, logs[0]['params']['requestId'])
    20.           # 使用eval转换遇到null会有问题,改为使用Json转换
    21.           response = json.loads((body['body']))
    22.           print(response)
    复制代码


    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-15 12:41 , Processed in 0.064187 second(s), 23 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表