51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 1407|回复: 5
打印 上一主题 下一主题

[原创] Day5-2测试积点任务

[复制链接]
  • TA的每日心情
    无聊
    4 天前
  • 签到天数: 1050 天

    连续签到: 1 天

    [LV.10]测试总司令

    跳转到指定楼层
    1#
    发表于 2018-6-28 10:58:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    问题:
    Selenium 一坨寻找 404 页面的代码?
    这坨代码解决的问题:
    公司主站做好了,哪些路由配置有问题,或者没资源,nginx搞错了,404, 5xx,挨个点?

    下面进入不正经时间
    肯定是在造轮子,而且必须是方的.但wo孤落寡闻,在坛子上找了找,看到个c#工具

    写完了也没仔细测, 凑合能用,真是凑合能用

    只适用于特定的网站,不要指望改个网址就能用了. 一直认为开发出让所有人都能用的测试工具, 简直扯淡,等同于让所有人都幸福

    为啥不用request-html,这个...,暂时不会,没看;

    可以拓展:

    需要用户登录后去扫,会Se就成
    需要处理特殊超链接,比如不是写在<a href=xxx>那,像我们公司的网站的分页...
    404了,没准是网络不好,再抓一次
    愿意改成多线程多什么就去改吧
    反正是凑合能用


    代码如下:
    1. #! /usr/bin/env python3
    2. # coding=utf-8

    3. import time
    4. from urllib.parse import urljoin
    5. from selenium import webdriver
    6. from bs4 import BeautifulSoup
    7. from logzero import logger

    8. domain='https://www.yirendai.com/abc'
    9. title404="您访问的页面不存在-宜人贷"

    10. dr=webdriver.Firefox()

    11. def scrap_url(url,orginal_url=None,scrap=True):
    12.     """
    13.         a页面有b页面超链接,同时b页面有a页面超链接.访问a->解析出b->访问b->解析出a
    14.         ->访问a,不对a页面再次解析,此时scrap=False
    15.     """
    16.     status_code=200
    17.     try:
    18.         now=time.time()
    19.         dr.get(url)

    20.         #根据title判断/或者404页面文件都比较小
    21.         if dr.title==title404: status_code=404

    22.         html=dr.page_source
    23.         soup=BeautifulSoup(html,'html.parser')
    24.     except Exception as e:
    25.         dr.get_screenshot_as_base64('f{orginal_url}_to_{url}')
    26.     finally:
    27.         t='%.2f' %(time.time()-now)
    28.         if status_code==200:
    29.             mod="32m"
    30.         elif status_code==404:
    31.             mod="31m"
    32.         logger.debug(f'{orginal_url} to {url} \033[0;34m {t}s \033[0m '
    33.             f'\033[0;{mod}{status_code}\033[0m')

    34.     more_seeds=[]

    35.     #有些网站的站内的超链接不是href参数提供的,需要继续在if修改
    36.     # 有些还有外链,都是在这处理....
    37.     if scrap:
    38.         for a in soup.find_all(href=True):
    39.             if a['href'].startswith('/'):
    40.                 more_seeds.append((urljoin(domain,a['href']),url))
    41.     return more_seeds

    42. def main(domain):
    43.     seeds=scrap_url(domain)
    44.     old_urls=[]
    45.     while seeds:
    46.         seed,seeds=seeds[0],seeds[1:]
    47.         url,orginal_url=seed
    48.         if url not in old_urls:
    49.             more_seeds=scrap_url(url,orginal_url)
    50.             old_urls.append(url)
    51.         else:
    52.             more_seeds=scrap_url(url,orginal_url,False)
    53.         seeds.extend(more_seeds)

    54. main(domain)
    复制代码






    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

    x
    分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    收藏收藏
    回复

    使用道具 举报

  • TA的每日心情
    慵懒
    3 天前
  • 签到天数: 1521 天

    连续签到: 5 天

    [LV.Master]测试大本营

    2#
    发表于 2018-6-29 10:53:31 | 只看该作者
    这种用selenium感觉更麻烦
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 天前
  • 签到天数: 1806 天

    连续签到: 5 天

    [LV.Master]测试大本营

    3#
    发表于 2018-6-29 10:58:18 | 只看该作者
    WEB端可以用XeruLinkSleuk这个工具来查看配置
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2024-11-8 10:04
  • 签到天数: 473 天

    连续签到: 2 天

    [LV.9]测试副司令

    4#
    发表于 2018-6-29 11:13:25 | 只看该作者
    WEB端可以用XeruLinkSleuk这个工具来查看配置
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    前天 07:50
  • 签到天数: 2818 天

    连续签到: 6 天

    [LV.Master]测试大本营

    5#
    发表于 2018-6-29 12:35:17 | 只看该作者
    这么麻烦啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2024-7-8 09:00
  • 签到天数: 943 天

    连续签到: 1 天

    [LV.10]测试总司令

    6#
    发表于 2018-6-29 13:39:11 | 只看该作者

    这种用selenium感觉更麻烦
    回复 支持 反对

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-25 04:05 , Processed in 0.066210 second(s), 23 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表