spark单机模式和集群模式安装

巴黎的灯光下 发表于 2019-4-2 14:30:58

1.spark单机模式安装实现步骤：1）安装和配置好JDK2）上传和解压Spark安装包3）进入Spark安装目录下的conf目录
复制conf spark-env.sh.template 文件为 spark-env.sh在其中修改，增加如下内容：SPARK_LOCAL_IP=服务器IP地址Spark单机模式启动在bin目录下执行：sh spark-shell --master=local
启动后发现打印消息Spark context Web UI available at http://localhost:4040//Spark的浏览器界面
看到这个页面单机模式也就安装成功了
2.集群模式安装实现步骤：1）上传解压spark安装包
2）进入spark安装目录的conf目录
3）配置spark-env.sh文件配置示例：#本机ip地址SPARK_LOCAL_IP=spark01#spark的shuffle中间过程会产生一些临时文件，此项指定的是其存放目录，不配置默认是在 /tmp目录下SPARK_LOCAL_DIRS=/home/software/spark/tmpexport JAVA_HOME=/home/software/jdk1.8
4）在conf目录下，编辑slaves文件配置示例：spark01spark02spark03
5）配置完后，将spark目录发送至其他节点，并更改对应的SPARK_LOCAL_IP 配置
启动集群1）如果你想让 01 虚拟机变为master节点，则进入01 的spark安装目录的sbin目录执行： sh start-all.sh
2）通过jps查看各机器进程，01：Master +Worker02：Worker03：Worker
3）通过浏览器访问管理界面http://192.168.222.22:8080
4）通过spark shell 连接spark集群进入spark的bin目录执行：shspark-shell.sh --master spark://192.168.222.22:7077
6）在集群中读取文件：sc.textFile("/root/work/words.txt")默认读取本机数据这种方式需要在集群的每台机器上的对应位置上都一份该文件浪费磁盘
7）所以应该通过hdfs存储数据sc.textFile("hdfs://hadoop01:9000/mydata/words.txt");注：可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址使默认访问的是hdfs的路径注：如果修改默认地址是hdfs地址则如果想要访问文件系统中的文件需要指明协议为file 例如 sc.text("file:///xxx/xx")

页: [1]

51Testing软件测试论坛 's Archiver

spark单机模式 和 集群模式 安装

spark单机模式和集群模式安装