|
首先需要区分性能与功能,先说下功能,一般而言针对大数据要校验的是数据流的完整性,准确性,数据的抽取处理重新加载可以通过市面上的ETL工具来解决(ETL工具有很多,开源的如kettle等),需要注意的是数据处理后的结果是否到达了预期,这就是针对于ETL的数据处理校验,可以通过脚本(python/Java + SQL语句)来进行校验;
其次接口,由于大数据平台的数据来源于众多,需要验证接口间的数据传递是否准确,这个其实和一般意义上的接口测试大同小异,只是普通接口测试返回的是一个,几个,一组数据,而大数据平台的接口间传输返回的是一个数据集;原理相同,只是传递的数据量的大小而已;
最后提一下性能,如果只是针对于大数据平台的话,那么这个和基于普通Web端服务器的压测原理基本相同,同样可以通过LR来实现不同场景下的压测,并发等性能测试;如果要深入到大数据本身的组建性能调优的话,那么就需要对大数据框架生态圈中的组建有相应的理解了,如何做到资源调度调优等,这些就更偏技术性了, 比如Hadoop自带的基准测试工具有TestDFSIO用于测试HDFS的IO性能;
另外市面上的大数据测试工具,目前看来没有特别完备的,正如刚才提到了,仅仅是大数据平台的压测,完全可以通过LR完成,或者第三方云性能测平台;对于内部组件的调优,hadoop,spark都本身自带性能测试组件工具;
最后的最后,大数据本身就是基于云计算,虚拟化的基础上才发展起来的,要想速成还是不太现实,只能说基于自己目前的技术,JAVA,python, SQL语句必须牢牢掌握,同时最好了解大数据框架hadoop, spark中的组件如何协调工作;这些都是大数据测试工程师必备的核心知识 |
|