1. 程式人生 > >Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源

Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源

1. External Data Source 外部資料來源

    1)每一個spark程式以載入資料開始,以輸出資料結束

    2)方便快速的從不同的資料來源(json、parquet/rdbms),經過混合處理,在將處理結果以特定的格式,寫回到指定的系統(HDFS S3)中

處理過程:

    1)要從關係型資料庫匯入大資料系統,然後處理完再導回原有資料庫

目標:

    1)對於開發者:不需要把程式碼合併到spark原始碼中

    2)非常方便的載入和讀取

    spark.read.format(format) 讀

    people.write.format("parquet").save("path") 寫  格式+路徑

 

2. 操作Parquet檔案資料

    1)載入資料 spark.read.format("parquet").load(path)

    2)寫入資料 df.write.format("parquet").save(path)

 

3. 操作Hive表資料

    1)Spark.table(tableNmae) 讀Hive表資料

    2)df.write.saveAsTable(tableName) 寫入資料

    3)spark.sql("select deptno,count(1)from emp group by deptno").filter("deptno is not null").write.saveAs

    4)spark.tbale("在這裡寫入sql語句")

    5)注意設定分割槽數量,預設是200 

      spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")

 

4. 操作Mysql資料庫等關係型資料庫

 

5.關聯MySQL和Hive表資料關聯操作