spark 讀取 hdfs 資料分割槽規則

阿新 • • 發佈：2018-12-13

下文以讀取 parquet 檔案 / parquet hive table 為例：

hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertMetastoreParquet 控制，預設為 true。

如果設定為 true ，會使用 org.apache.spark.sql.execution.FileSourceScanExec ，否則會使用 org.apache.spark.sql.hive.execution.HiveTableScanExec。

FileSourceScanExec

前者對分割槽規則做了一些優化，如果檔案是：

沒有分桶的情況

分割槽大小計算公式：

bytesPerCore = totalBytes / defaultParallelism
maxSplitBytes = Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

defaultMaxSplitBytes：spark.sql.files.maxPartitionBytes，預設為128M，每個分割槽讀取的最大資料量
openCostInBytes: spark.sql.files.openCostInBytes，預設為4M，小於這個大小的檔案將會合併到一個分割槽，可以理解為每個分割槽的最小量，避免碎檔案造成的大量碎片任務。

defaultParallelism: spark.default.parallelism，yarn預設為應用cores數量或2。
bytesPerCore：資料總大小 / defaultParallelism

eg. 讀入一份 2048M 大小的資料

Tip: partitionSize的計算過程簡化，實際上會先對讀入的每個分割槽按maxSplitBytes做切割，切割完後如果的小檔案如果大小不足maxSplitBytes的，會合併到一個partition，直到大小 > maxSplitBytes。

//如果 spark.default.parallelism 設定為 1000，最終的分割槽數量是 512，每個分割槽大小為4M 

maxSplitBytes = Math.min(128M, Math.max(4M, 2M))
partitionSize = 2048 / 4 = 512 

//如果 spark.default.parallelism 設定為 100, 最終的分割槽數量是 100，每個分割槽大小為20.48M
maxSplitBytes = Math.min(128M, Math.max(4M, 20.48M))
partitionSize = 2048 / 20.48 = 100     

//如果 spark.default.parallelism 設定為 10, 最終的分割槽數量是 16，每個分割槽大小為128M
maxSplitBytes = Math.min(128M, Math.max(4M, 204.8M))
partitionSize = 2048 / 128 = 16

分桶的情況下：

分割槽數取決於桶的數量。

HiveTableScanExec

通過檔案數量，大小進行分割槽。

eg. 讀入一份 2048M 大小的資料，hdfs 塊大小設定為 128M

該目錄有1000個小檔案，則會生成1000個partition。
如果只有1個檔案，則會生成 16 個分割槽。
如果有一個大檔案1024M,其餘 999 個檔案共 1024M，則會生成 1009 個分割槽

spark 讀取 hdfs 資料分割槽規則

下文以讀取 parquet 檔案 / parquet hive table 為例： hive metastore 和 parquet 轉化的方式通過 spark.sql.hive.convertMetastoreParquet 控制，預設為 true。如果設定為 true ，會

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

spark standalone 讀取 HDFS 資料本地性異常

在分散式計算中，為了提高計算速度，資料本地性是其中重要的一環。不過有時候它同樣也會帶來一些問題。一.問題描述在分散式計算中，大多數情況下要做到移動計算而非移動資料，所以資料本地性尤其重要，因此我們往往也是將hdfs和spark部署在相同的節點上，有些

spark讀取hive資料-java

需求：將hive中的資料讀取出來，寫入es中。環境：spark 2.0.2 1. SparkSession裡設定enableHiveSupport() SparkConf conf = new SparkConf().setAppName("appName").setMast

spark讀取es資料

spark-2.0.2 scala-2.11.8  <dependency> <groupId>org.apa

0016-Avro序列化&反序列化和Spark讀取Avro資料

溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 1.簡介本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 1.1Apache Arvo是什麼？ Apache Avro 是一個數據序列

Spark讀取HDFS或者AFS等檔案系統檔案

Spark讀取HDFS或者AFS等檔案系統檔案 Spark讀取檔案有很多方法，我這裡主要介紹一下讀取非結構化的檔案的兩種方式，針

spark讀取kafka資料（兩種方式比較及flume配置檔案）

a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 a1.channels.c1.type = memory a1.channels.c1.capacity

scala實戰之spark讀取mysql資料表並存放到mysql庫中程式設計例項

今天簡單講解一下應用spark1.5.2相關讀取mysql資料到DataFrame的介面以及將DF資料存放到mysql中介面實現例項同樣我們的程式設計開發環境是不需要安裝spark的，但是需要一臺安裝了mysql的伺服器，我這裡直接在本機安裝了一個mysql，還有就是sc

Spark 讀取HDFS檔案

環境：CentOS 6.3 SPARK 1.0.0 1. 讀取text檔案 scala> val distFile = sc.textFile("hdfs://localhost:54310/data/in/log") res1: Long = 2

spark讀取redis資料（互動式，scala單機版，java單機版）

互動式第一步：向redis中新增資料第二步：將jedis jar包放入~/lib目錄下，開啟spark服務第三步：通過spark-shell讀取redis資料，並做相應處理

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

在 Map[Reduce] 的 setup 中讀取 HDFS 資料夾資訊

有時候，我們想在 Map 或者 Reduce 執行前讀取一些資料資訊（量相對比較小），又不想通過另一個 Map 來讀取，就可以在該Map 的 setup 中來完成該操作。相關定義1.在HDFS上某一資料夾下存放使用者資訊列表： /user/data/

Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

Spark也有資料本地化的概念（Data Locality），這和MapReduce的Local Task差不多，如果讀取HDFS檔案，Spark則會根據資料的儲存位置，分配離資料儲存最近的Executor去執行任務。這麼理解沒錯，我搭建的Spark叢集情況是這樣：15臺Da

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

spark讀取mongodb資料

spark2.x向mongodb中讀取寫入資料，讀取寫入相關引數參考https://docs.mongodb.com/spark-connector/current/configuration/#cache-configuration 從mongodb中讀取資料時指

解決Spark讀取HDFS小檔案的問題

若Spark讀取HDFS資料夾時，其中的小檔案過多會降低程式效能，也給HDFS帶來壓力。當Spark讀取檔案時，會為每個檔案

【原創】大資料基礎之Spark（7）spark讀取檔案split過程（即RDD分割槽數量）

spark 2.1.1 spark初始化rdd的時候，需要讀取檔案，通常是hdfs檔案，在讀檔案的時候可以指定最小partition數量，這裡只是建議的數量，實際可能比這個要大（比如檔案特別多或者特別大時），也可能比這個要小（比如檔案只有一個而且很小時），如果沒有指定最小partition數量，初始化完成的

spark流式讀取hdfs中資料

名詞解釋： spark streaming：定義：一個對實時資料進行高容通量、容錯處理的流式處理系統，可以對多種資料來源進行Map、reduce和join等複雜操作，並將結果儲存到外部檔案系統、

mongo-spark-讀取不同的庫資料和寫入不同的庫中

mongo-spark-讀取不同的庫資料和寫入不同的庫中 package com.example.app import com.mongodb.spark.config.{ReadConfig, WriteConfig} import com.mongodb.spark.sql._ object

spark 讀取 hdfs 資料分割槽規則

FileSourceScanExec

HiveTableScanExec

相關推薦