1.spark单机模式安装 实现步骤: 1)安装和配置好JDK 2)上传和解压Spark安装包 3)进入Spark安装目录下的conf目录
复制conf spark-env.sh.template 文件为 spark-env.sh 在其中修改,增加如下内容: SPARK_LOCAL_IP=服务器IP地址 Spark单机模式启动 在bin目录下执行:sh spark-shell --master=local
启动后 发现打印消息 Spark context Web UI available at http://localhost:4040//Spark的浏览器界面
看到这个页面单机模式也就安装成功了
2.集群模式安装 实现步骤: 1)上传解压spark安装包
2)进入spark安装目录的conf目录
3)配置spark-env.sh文件 配置示例: #本机ip地址 SPARK_LOCAL_IP=spark01 #spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tmp目录下 SPARK_LOCAL_DIRS=/home/software/spark/tmp export JAVA_HOME=/home/software/jdk1.8
4)在conf目录下,编辑slaves文件 配置示例: spark01 spark02 spark03
5)配置完后,将spark目录发送至其他节点,并更改对应的 SPARK_LOCAL_IP 配置
启动集群 1)如果你想让 01 虚拟机变为master节点,则进入01 的spark安装目录的sbin目录 执行: sh start-all.sh
2)通过jps查看各机器进程, 01:Master +Worker 02:Worker 03:Worker
3)通过浏览器访问管理界面 http://192.168.222.22:8080
4)通过spark shell 连接spark集群 进入spark的bin目录 执行:sh spark-shell.sh --master spark://192.168.222.22:7077
6)在集群中读取文件: sc.textFile("/root/work/words.txt") 默认读取本机数据 这种方式需要在集群的每台机器上的对应位置上都一份该文件 浪费磁盘
7)所以应该通过hdfs存储数据 sc.textFile("hdfs://hadoop01:9000/mydata/words.txt"); 注:可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址 使默认访问的是hdfs的路径 注:如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text("file:///xxx/xx")
|