51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

手机号码,快捷登录

查看: 3180|回复: 6
打印 上一主题 下一主题

[讨论] 抛砖引玉----个人大数据测试小结

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2018-4-10 13:50:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
1.ETL测试

    ETL, Extract-Transform-Load 的缩写,将数据从来源端经过抽取(extract)、转换(transform)、加载
(load)至目的端的过程.

   ETL工具较多,用过的是informatica.它从目标表抽取数据加载到结果表 hive<-->数据库.

   测试思路:

     a.测试抽取的符合条件的数据总量;

     b.报表字段类型转换测试;

     c.报表字段特殊值测试(空,null,复合型字符);

     d.根据sql过滤条件进行造数测试;

     e.根据业务场景进行造数测试;

     f.开发创建的报表/报表字段和测试报表进行对比测试;

     g.开发条件过滤sql初步遍历看有无明显语法错误测试;

     h.报表拉数耗费时间测试;

     j.报表大批量数据拉取性能测试.

用过informatica的同学都知道它有四个界面段,基于开发写的sql,报表字段,数据库连接串,errorlog都能从里
面获取到信息,建议当工具拉数报错时,自己能更改的错误自己就直接改了(当然事后别忘记告诉开发更新)。



2.Linux环境的shell脚本测试.

   一般shell脚本都是基本 数据库-->hive-->数据库的过程,也就是 hive的一个import 和 export的过程,需要涉
及的知识面:基本的linux命令,shell脚本命令,hivesql,hdfs命令.

     因为shell脚本测试有些时候是基于需要直接更改报表在hdfs路径下的数据文件,本人是建议测试完全掌握这
一块的,毕竟公司部门的shell脚本一般都是有一个统一格式的.

     测试思路:

      1.遍历shell脚本查看开发输出的脚本是否正确(命名规范,脚本内容,调用函数,日志打印,异常检查机制);

2.遍历oracle/mysql/hive等建表语句(包含报表名称,报表字段,报表hdfs路径,索引创建,分区创建);

3.import/export报表数据总量;

4.import/export报表数据的脚本运行时间;

5.数据库--hive 的数据类型转换;

6.历史数据报表的历史数据量;

7.一些简单的sql语句优化..

  hive报表主要涉及的都是一些数据传输过程,然后在hive里面使用sql进行一些逻辑计算,最后得出结果再把数
据传输出去,所以主要关注点都在hive这一块。



3.kafka/scala

这个是目前正在做的项目,涉及到的kafka以及scala语言均需要补充新知识,scala语言相对好一点,是类似sql的
一种写法,主要是在kafka中进行计算然后进行一个接口数据传输,从测试角度来看,涉及到:需求确定的逻辑
计算方式 ,需求确定的各字段名称,需求确定的取数范围(标识,时间,状态),考虑报表历史数据量大小对性
能的影响,基于服务器大小对各报表历史数据保存时间的确定,json串数据传输.

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏4
回复

使用道具 举报

  • TA的每日心情
    擦汗
    2021-3-31 09:25
  • 签到天数: 273 天

    连续签到: 2 天

    [LV.8]测试军长

    7#
    发表于 2019-4-30 11:23:17 | 只看该作者
    我觉得数据抽取规则也很重要
    回复 支持 反对

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-11-22 02:58 , Processed in 0.065949 second(s), 22 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表