老白的释然 发表于 2019-2-27 16:35:18

Spark Hbase读取操作的一些总结与测试

Spark连接HBase实现查询的操作有好多种步骤,其中常用的是直接调用Hbase本身提供的写入和读出的接口。

然而不少人在此基础上进行了各种封装,有的支持spark sql on Hbase,著名如华为开源的astro,但是这个也非常有局限性,其仅支持spark 1.4.0,其中的源码已经远远无法适应1.6.0以上的版本。

另一种思路是实现Hbase作为Spark的一种数据源,如TEXT一样的,对数据源进行封装。这种思路实质上是充分利用spark sql +数据源的方式。


而最后一种思路是实现对rdd的改装,使得RDD本身适应Hbase的数据结构。



页: [1]
查看完整版本: Spark Hbase读取操作的一些总结与测试