51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

查看: 1936|回复: 0
打印 上一主题 下一主题

[转贴] spark单机模式 和 集群模式 安装

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2019-4-2 14:30:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

1.spark单机模式安装

实现步骤:

1)安装和配置好JDK

2)上传和解压Spark安装包

3)进入Spark安装目录下的conf目录


复制conf spark-env.sh.template 文件为 spark-env.sh

在其中修改,增加如下内容:

SPARK_LOCAL_IP=服务器IP地址

Spark单机模式启动

在bin目录下执行:sh spark-shell --master=local


启动后 发现打印消息

Spark context Web UI available at http://localhost:4040//Spark的浏览器界面


看到这个页面单机模式也就安装成功了


2.集群模式安装

实现步骤:

1)上传解压spark安装包


2)进入spark安装目录的conf目录


3)配置spark-env.sh文件

配置示例:

#本机ip地址

SPARK_LOCAL_IP=spark01

#spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tmp目录下

SPARK_LOCAL_DIRS=/home/software/spark/tmp

export JAVA_HOME=/home/software/jdk1.8


4)在conf目录下,编辑slaves文件

配置示例:

spark01

spark02

spark03


5)配置完后,将spark目录发送至其他节点,并更改对应的  SPARK_LOCAL_IP 配置


启动集群

1)如果你想让 01 虚拟机变为master节点,则进入01 的spark安装目录的sbin目录

执行: sh start-all.sh


2)通过jps查看各机器进程,

01:Master +Worker

02:Worker

03:Worker


3)通过浏览器访问管理界面

http://192.168.222.22:8080


4)通过spark shell 连接spark集群

进入spark的bin目录

执行:sh  spark-shell.sh --master spark://192.168.222.22:7077


6)在集群中读取文件:

sc.textFile("/root/work/words.txt")

默认读取本机数据 这种方式需要在集群的每台机器上的对应位置上都一份该文件 浪费磁盘


7)所以应该通过hdfs存储数据

sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");

注:可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址 使默认访问的是hdfs的路径

注:如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text("file:///xxx/xx")




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

本版积分规则

关闭

站长推荐上一条 /1 下一条

小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

GMT+8, 2024-4-28 03:38 , Processed in 0.067409 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2024 Comsenz Inc.

快速回复 返回顶部 返回列表