51Testing软件测试论坛

标题: spark技巧 [打印本页]

作者: 测试积点老人 时间: 2019-1-9 15:39
标题: spark技巧
1. 设置消息尺寸最大值

复制代码

2.与yarn结合时设置队列

复制代码

3.运行时使用yarn分配资源，并设置--num-executors参数

复制代码

4.读取impala的parquet，对String串的处理

复制代码

5.parquetfile的写

case class ParquetFormat(usr_id:BigInt , install_ids:String )
val appRdd=sc.textFile("hdfs://").map(_.split("\t")).map(r=>ParquetFormat(r(0).toLong,r(1)))
sqlContext.createDataFrame(appRdd).repartition(1).write.parquet("hdfs://")

复制代码

6.parquetfile的读

复制代码

7.写文件时，将所有结果汇集到一个文件

复制代码

8.如果重复使用的rdd，使用cache缓存

复制代码

9.spark-shell 添加依赖包

复制代码

10.spark-shell使用yarn模式，并使用队列

复制代码

作者: Miss_love 时间: 2021-1-5 13:44
支持分享

欢迎光临 51Testing软件测试论坛 (http://bbs.51testing.com/)