大数据生态系统架构

子豪_002 · 发表于 2019-2-28 16:38:34

Hadoop

MapReduce属于Hadoop生态体系之一，Spark属于BDAS生态体系之一。

目前Hadoop有两种版本：Apache和CDH版本。

一、优缺点

Apache版本
CDH版本
Kafka和flume对比

kafka和flume都是日志系统。kafka是分布式消息中间件，自带存储。flume分为agent（数据采集器）,collector（数据简单处理和写入）,storage（存储器）三部分，每一部分都是可以定制的。
kafka做日志缓存应该是更为合适的，但是flume的数据采集部分做的很好，可以定制很多数据源，减少开发量。所以比较流行flume+kafka模式，如果为了利用flume写hdfs的能力，也可以采用kafka+flume的方式。
Flume：Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API。
Kafka：Kafka是一个可持久化的分布式的消息队列。
典型用法：
线上数据->flume->kafka->hdfs->MR离线计算
Spark

Spark算子

Value数据类型的Transformation算子。
Key-Value数据类型的Transformation算子。
Action算子。
Spark模块

Spark core // 核心模块
Spark SQL // SQL
Spark Streaming // 流计算
Spark NLlib // 机器学习
Spark graph // 图计算
Spark Streaming

Spark Streaming是核心Spark API的扩展。
- 数据可以从Kafka、Flume、TCP Socekts等许多资源中获取。可以使用复杂的算法处理。最后，可以将处理过的数据推送到文件系统。

离散流或DStream是有Spark Streaming提供的基本抽象。DStream由一组连续的RDDs表示。
DStream时间窗口。
时间窗口运行Spark Streaming消费过去一段时间（多个批次）内的数据。
Spark SQL和DataFrame

Spark SQL是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL可以从现有的Hive安装中读取数据。
DataFrame是一个分布式数据集，相当于关系数据库中一张表。
DataFrame和RDD的区别

RDD是分布式Java对象的集合。
DataFrame是一种以RDD为基础的分布式数据集，也就是分布式Row对象的集合（每个Row对象代表一行记录）。
加载json数据转为DataFrame算子：

scala> val df=sqlContext.read.json("路径/name.json")
scala> df.show()

复制代码

赵佳乐SMILE · 发表于 2019-3-2 20:02:46

学习

		自动登录	找回密码
密码			(注-册)加入51Testing

大数据生态系统架构

站长推荐 /1