51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1340|回复: 3
打印 上一主题 下一主题

关于怎么优化selenium定位语句??

[复制链接]
  • TA的每日心情
    无聊
    4 天前
  • 签到天数: 530 天

    连续签到: 2 天

    [LV.9]测试副司令

    跳转到指定楼层
    1#
    发表于 2022-2-21 11:30:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    1测试积点
    本人正在练习通过selenium爬取上市公司年报,试了很久才写出如下效果,但其中的selenium定位语句,实在不知道怎么优化,试了很多次,每次都报错,所以期待有高人可以拨冗指点,谢谢!

    1. ```python

    2. import re
    3. from selenium import webdriver
    4. from selenium.webdriver import ActionChains
    5. from selenium.webdriver.chrome.options import Options
    6. import requests


    7. def main( out_fold ):
    8.     url = "https://gu.qq.com/sh600018/gp/jbnb/"
    9.     file_list = {}
    10.     chrome_options = Options()
    11.     chrome_options.add_argument('--log-level=3')
    12.     chrome_options.add_argument('--disable-gpu') # 禁用gpu
    13.     chrome_options.add_argument('--mute-audio')  # 关闭声音
    14.     driver = webdriver.Chrome(options=chrome_options, executable_path=r"E:/python_work/BrowseDriver/chromedriver.exe")
    15.     driver.implicitly_wait(2)
    16.    
    17.     driver.get(url)
    18.     ul = driver.find_element_by_xpath("//strong[text()='公告标题']/../..") # 这块怎么一次性取到报告区域呢???
    19.     lis = ul.find_elements_by_xpath('./*') # 每行报告记录

    20.     for index, li in enumerate(lis):
    21.         eles =  li.find_elements_by_xpath('./*')
    22.         filename = eles[0].text
    23.         
    24.         file_list[ index ] = {
    25.                                 "filename" : filename ,
    26.                                 "href" : eles[0].get_attribute("href")
    27.                                 }
    28.     for k in file_list:  # 遍历存储的 file_list
    29.         if file_list[k]['filename'] =="公告标题":
    30.             continue

    31.         driver.implicitly_wait(2)     
    32.         driver.get( file_list[k]['href'] )
    33.         ele = driver.find_element_by_xpath("//a[@class='yk_on']/../..") # 这块语句怎么优化,始终无法直接读取到iframe?????
    34.         ele1 = ele.find_elements_by_xpath('./*')
    35.         ele2 = ele1[2].find_elements_by_xpath('./*')
    36.         ele3 = ele2[0].find_elements_by_xpath('./*')
    37.         pdf_src = ele3[1].get_attribute("src")
    38.         r = requests.get( pdf_src )
    39.         filename_full_path = out_fold +  file_list[k]['filename'] +  ".pdf"
    40.         with open( filename_full_path , "wb") as f:
    41.             f.write(r.content)
    42.    
    43.     print("over")


    44. if __name__ == '__main__':
    45.     out_fold = 'D:\\data_work\\财报分析模型\财报\\tt\\'
    46.     main( out_fold )

    复制代码


    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    3 天前
  • 签到天数: 1521 天

    连续签到: 5 天

    [LV.Master]测试大本营

    2#
    发表于 2022-2-22 10:13:00 | 只看该作者
    这个需要提供网页才能优化
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    半小时前
  • 签到天数: 669 天

    连续签到: 1 天

    [LV.9]测试副司令

    3#
    发表于 2022-2-22 14:13:04 | 只看该作者
    报错呢
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2 小时前
  • 签到天数: 2819 天

    连续签到: 1 天

    [LV.Master]测试大本营

    4#
    发表于 2022-2-22 15:45:26 | 只看该作者
    什么错误信息,以此来,如果变动会有报错
    回复

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-25 09:38 , Processed in 0.064626 second(s), 21 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表