程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

阿新 • • 發佈：2018-12-28

版本：
spark 2.2.0
hive 1.1.0
scala 2.11.8
hadoop-2.6.0-cdh5.7.0
jdk 1.8
MongoDB 3.6.4

一原始資料及Hive表

MongoDB資料格式

{
    "_id" : ObjectId("5af65d86222b639e0c2212f3"),
    "id" : "1",
    "name" : "lisi",
    "age" : "18",
    "deptno" : "01"
}

Hive普通表

create table mg_hive_test(
id string,
name string,
age string,
deptno string
)row format delimited fields terminated by '\t';

Hive分割槽表

create table  mg_hive_external(
id string,
name string,
age string
)
partitioned by (deptno string)
row format delimited fields terminated by '\t';

二 IDEA+Maven+Java
依賴

<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>
    <dependency>
      <groupId>org.mongodb</groupId>
      <artifactId>mongo-java-driver</artifactId>
      <version>3.6.3</version>
    </dependency>
    <dependency>
      <groupId>org.mongodb.spark</groupId>
      <artifactId>mongo-spark-connector_2.11</artifactId>
      <version>2.2.2</version>
    </dependency>

程式碼

package com.huawei.mongo;/*
 * @Author: Create by Achun
 *@Time: 2018/6/2 21:00
 *
 */

import com.mongodb.spark.MongoSpark;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.bson.Document;

import java.io.File;
import java.util.ArrayList;
import java.util.List;

public class sparkreadmgtohive {
    public static void main(String[] args) {
        //spark 2.x
        String warehouseLocation = new File("spark-warehouse").getAbsolutePath();
        SparkSession spark = SparkSession.builder()
                .master("local[2]")
                .appName("SparkReadMgToHive")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .config("spark.mongodb.input.uri", "mongodb://127.0.0.1:27017/test.mgtest")
                .enableHiveSupport()
                .getOrCreate();
        JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

        //spark 1.x
//        JavaSparkContext sc = new JavaSparkContext(conf);
//        sc.addJar("/Users/mac/zhangchun/jar/mongo-spark-connector_2.11-2.2.2.jar");
//        sc.addJar("/Users/mac/zhangchun/jar/mongo-java-driver-3.6.3.jar");
//        SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("SparkReadMgToHive");
//        conf.set("spark.mongodb.input.uri", "mongodb://127.0.0.1:27017/test.mgtest");
//        conf.set("spark. serializer","org.apache.spark.serializer.KryoSerialzier");
//        HiveContext sqlContext = new HiveContext(sc);
//        //create df from mongo
//        Dataset<Row> df = MongoSpark.read(sqlContext).load().toDF();
//        df.select("id","name","name").show();

        String querysql= "select id,name,age,deptno,DateTime,Job from mgtable b";
        String opType ="P";

        SQLUtils sqlUtils = new SQLUtils();
        List<String> column = sqlUtils.getColumns(querysql);

        //create rdd from mongo
        JavaRDD<Document> rdd = MongoSpark.load(sc);
        //將Document轉成Object
        JavaRDD<Object> Ordd = rdd.map(new Function<Document, Object>() {
            public Object call(Document document){
                List list = new ArrayList();
                for (int i = 0; i < column.size(); i++) {
                    list.add(String.valueOf(document.get(column.get(i))));
                }
                return list;

//                return list.toString().replace("[","").replace("]","");
            }
        });
        System.out.println(Ordd.first());
        //通過程式設計方式將RDD轉成DF
        List ls= new ArrayList();
        for (int i = 0; i < column.size(); i++) {
            ls.add(column.get(i));
        }
        String schemaString = ls.toString().replace("[","").replace("]","").replace(" ","");
        System.out.println(schemaString);

        List<StructField> fields = new ArrayList<StructField>();
        for (String fieldName : schemaString.split(",")) {
            StructField field = DataTypes.createStructField(fieldName, DataTypes.StringType, true);
            fields.add(field);
        }
        StructType schema = DataTypes.createStructType(fields);

        JavaRDD<Row> rowRDD = Ordd.map((Function<Object, Row>) record -> {
            List fileds = (List) record;
//            String[] attributes = record.toString().split(",");
            return RowFactory.create(fileds.toArray());
        });

        Dataset<Row> df = spark.createDataFrame(rowRDD,schema);

        //將DF寫入到Hive中
        //選擇Hive資料庫
        spark.sql("use datalake");
        //註冊臨時表
        df.registerTempTable("mgtable");

        if ("O".equals(opType.trim())) {
            System.out.println("資料插入到Hive ordinary table");
            Long t1 = System.currentTimeMillis();
            spark.sql("insert into mgtohive_2 " + querysql + " " + "where b.id not in (select id from mgtohive_2)");
            Long t2 = System.currentTimeMillis();
            System.out.println("共耗時：" + (t2 - t1) / 60000 + "分鐘");
        }else if ("P".equals(opType.trim())) {

        System.out.println("資料插入到Hive  dynamic partition table");
        Long t3 = System.currentTimeMillis();
        //必須設定以下引數 否則報錯
        spark.sql("set hive.exec.dynamic.partition.mode=nonstrict");
        //depton為分割槽欄位   select語句最後一個欄位必須是deptno
        spark.sql("insert into mg_hive_external partition(deptno) select id,name,age,deptno from mgtable b where b.id not in (select id from mg_hive_external)");
        Long t4 = System.currentTimeMillis();
        System.out.println("共耗時："+(t4 -t3)/60000+ "分鐘");
        }
        spark.stop();
    }

}

工具類

package com.huawei.mongo;/*
 * @Author: Create by Achun
 *@Time: 2018/6/3 23:20
 *
 */

import java.util.ArrayList;
import java.util.List;

public class SQLUtils {

    public List<String> getColumns(String querysql){
        List<String> column = new ArrayList<String>();
        String tmp = querysql.substring(querysql.indexOf("select") + 6,
                querysql.indexOf("from")).trim();
        if (tmp.indexOf("*") == -1){
            String cols[] = tmp.split(",");
            for (String c:cols){
                column.add(c);
            }
        }
        return column;
    }

    public String getTBname(String querysql){
        String tmp = querysql.substring(querysql.indexOf("from")+4).trim();
        int sx = tmp.indexOf(" ");
        if(sx == -1){
            return tmp;
        }else {
            return tmp.substring(0,sx);
        }
    }

}

三錯誤解決辦法
1 IDEA會獲取不到Hive的資料庫和表，將hive-site.xml放入resources檔案中。並且將resources設定成配置檔案(設定成功資料夾是藍色否則是灰色)
file–>Project Structure–>Modules–>Source

2 上面錯誤處理完後如果報JDO型別的錯誤，那麼檢查HIVE_HOME/lib下時候否mysql驅動，如果確定有，那麼就是IDEA獲取不到。解決方法如下：

將mysql驅動拷貝到jdk1.8.0_171.jdk/Contents/Home/jre/lib/ext路徑下(jdk/jre/lib/ext)

在IDEA專案External Libraries下的<1.8>裡面新增mysql驅動

四注意點
由於將MongoDB資料表註冊成了臨時表和Hive表進行了關聯，所以要將MongoDB中的id欄位設定成索引欄位，否則效能會很慢。
MongoDB設定索引方法：

db.getCollection('mgtest').ensureIndex({"id" : "1"}),{"background":true}

檢視索引：

db.getCollection('mgtest').getIndexes()

MongoSpark網址：https://docs.mongodb.com/spark-connector/current/java-api/

本文轉自若澤大資料：https://mp.weixin.qq.com/s/7uQG-g8oilqJebynTS6Bkg

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

spark讀取mongodb資料

spark2.x向mongodb中讀取寫入資料，讀取寫入相關引數參考https://docs.mongodb.com/spark-connector/current/configuration/#cache-configuration 從mongodb中讀取資料時指

spark 讀取mongodb失敗,報executor time out 和GC overhead limit exceeded 異常

資源 base for read 就是 conn context mon getc 代碼： import com.mongodb.spark.config.ReadConfig import com.mongodb.spark.sql._ val config = sql

spark streaming 接收kafka資料寫入Hive分割槽表

直接上程式碼 object KafkaToHive{ def main(args: Array[String]){ val sparkConf = new SparkConf().setAppName("KafkaToHive") val sc = new SparkConte

spark讀取es資料

spark-2.0.2 scala-2.11.8  <dependency> <groupId>org.apa

0016-Avro序列化&反序列化和Spark讀取Avro資料

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.簡介本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 1.1Apache Arvo是什麼？ Apache Avro 是一個數據序列

spark 讀取 hdfs 資料分割槽規則

下文以讀取 parquet 檔案 / parquet hive table 為例： hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertMetastoreParquet 控制，預設為 true。如果設定為 true ，會

Spark SQL將資料寫入Mysql表的一些坑

轉自:https://blog.csdn.net/dai451954706/article/details/52840011/ 最近，在使用Spark SQL分析一些資料，要求將分析之後的結果資料存入到相應的MySQL表中。但是將資料處理完了之後，存

如何使用Spark快速將資料寫入Elasticsearch

如何使用Spark快速將資料寫入Elasticsearch 說到資料寫入Elasticsearch，最先想到的肯定是Logstash。Logstash因為其簡單上手、可擴充套件、可伸縮等優點被廣大使用者接受。但是尺有所短，寸有所長，Logstash肯定也有它無法適用的應用場景，比如：

Mongodb學習筆記 --- python讀取mongodb資料

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

spark讀取mongodb並解決迴圈巢狀array的拆分，屬性不存在整個物件丟失問題。

1、建立SQLContext SQLContext sqlContext = new SQLContext(sc) 2、拼接mongodb連線字串 if(UserName!=null && !"".equals(UserName))

flume讀取日誌資料寫入kafka 然後kafka+storm整合

一、flume配置 flume要求1.6以上版本 flume-conf.properties檔案配置內容，sinks的輸出作為kafka的product a1.sources = r1 a1.sinks = k1 a1.cha

flume讀取日誌資料寫入kafka

一、flume配置 flume要求1.6以上版本 flume-conf.properties檔案配置內容，sinks的輸出作為kafka的product a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/

spark讀取kafka資料（兩種方式比較及flume配置檔案）

a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 a1.channels.c1.type = memory a1.channels.c1.capacity

scala實戰之spark讀取mysql資料表並存放到mysql庫中程式設計例項

今天簡單講解一下應用spark1.5.2相關讀取mysql資料到DataFrame的介面以及將DF資料存放到mysql中介面實現例項同樣我們的程式設計開發環境是不需要安裝spark的，但是需要一臺安裝了mysql的伺服器，我這裡直接在本機安裝了一個mysql，還有就是sc

spark讀取redis資料（互動式，scala單機版，java單機版）

互動式第一步：向redis中新增資料第二步：將jedis jar包放入~/lib目錄下，開啟spark服務第三步：通過spark-shell讀取redis資料，並做相應處理

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

匯入 Mongodb 資料至Hive 方法一

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

相關推薦