51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

查看: 1762|回复: 0
打印 上一主题 下一主题

[原创] Hadoop CDH5 Spark部署

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2019-4-2 14:27:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

  Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。

CDH5 Spark安装

1    Spark的相关软件包

  1. spark-core: spark的核心软件包
  2. spark-worker: 管理spark-worker的脚本
  3. spark-master: 管理spark-master的脚本
  4. spark-python: Spark的python客户端
复制代码

2     Spark运行依赖的环境

  1. CDH5
  2. JDK
复制代码

3     安装Spark

  1. apt-get install spark-core spark-master spark-worker spark-python
复制代码

4     配置运行Spark (Standalone Mode)

        1     Configuring Spark(/etc/spark/conf/spark-env.sh)

  1. SPARK_MASTER_IP, to bind the master to a different IP address or hostname
  2. SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports
  3. SPARK_WORKER_CORES, to set the number of cores to use on this machine
  4. SPARK_WORKER_MEMORY, to set how much memory to use (for example 1000MB, 2GB)
  5. SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT
  6. SPARK_WORKER_INSTANCE, to set the number of worker processes per node
  7. SPARK_WORKER_DIR, to set the working directory of worker processes
复制代码

        2      Starting, Stopping, and Running Spark

  1. service spark-master start
  2. service spark-worker start
复制代码

  还有一个GUI界面在<master_host>:18080

5 Running Spark Applications

        1     Spark应用有三种运行模式:

                    Standalone mode:默认模式

                    YARN client mode:提交spark应用到YARN,spark驱动在spark客户端进程上。

                        YARN cluster mode:提交spark应用到YARN,spark驱动运行在ApplicationMaster上。

          2     运行SparkPi在Standalone模式

  1. source /etc/spark/conf/spark-env.sh
  2. CLASSPATH=$CLASSPATH:/your/additional/classpath
  3. $SPARK_HOME/bin/spark-class [<spark-config-options>]  \     
  4.     org.apache.spark.examples.SparkPi  \  
  5.     spark://$SPARK_MASTER_IP:$SPARK_MASTER_PORT 10
复制代码

Spark运行参数设置:http://spark.apache.org/docs/0.9.0/configuration.html

           3     运行SparkPi在YARN Client模式

                        在YARN client和YARN cluster模式下, 你首先要上传spark JAR包到你的HDFS上, 然后设置SPARK_JAR环境变量。

  1. source /etc/spark/conf/spark-env.sh
  2. hdfs dfs -mkdir -p /user/spark/share/lib
  3. hdfs dfs -put $SPARK_HOME/assembly/lib/spark-assembly_*.jar  /user/spark/share/lib/spark-assembly.jar
  4. SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar


  5. source /etc/spark/conf/spark-env.sh
  6. SPARK_CLASSPATH=/your/additional/classpath
  7. SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar
  8. $SPARK_HOME/bin/spark-class [<spark-config-options>]  \   
  9.     org.apache.spark.examples.SparkPi yarn-client 10
复制代码

  4     运行SparkPi在YARN Cluster模式

  1. source /etc/spark/conf/spark-env.sh
  2. SPARK_JAR=hdfs://<nn>:<port>/user/spark/share/lib/spark-assembly.jar
  3. APP_JAR=$SPARK_HOME/examples/lib/spark-examples_<version>.jar
  4. $SPARK_HOME/bin/spark-class org.apache.spark.deploy.yarn.Client \
  5.       --jar $APP_JAR \
  6.       --class org.apache.spark.examples.SparkPi \
  7.       --args yarn-standalone \
  8.       --args 10
复制代码



分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

本版积分规则

关闭

站长推荐上一条 /1 下一条

小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

GMT+8, 2024-4-28 14:25 , Processed in 0.056920 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2024 Comsenz Inc.

快速回复 返回顶部 返回列表