Spark 讀取外部檔案的幾種方式

阿新 • • 發佈：2019-02-03

textFile函式

/**
   * Read a text file from HDFS, a local file system (available on all nodes), or any
   * Hadoop-supported file system URI, and return it as an RDD of Strings.
   */
  def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
 
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

分析引數：

path: String 是一個URI，這個URI可以是HDFS、本地檔案（全部的節點都可以），或者其他Hadoop支援的檔案系統URI返回的是一個字串型別的RDD，也就是是RDD的內部形式是Iterator[(String)]

minPartitions= math.min(defaultParallelism, 2)

是指定資料的分割槽，如果不指定分割槽，當你的核數大於2的時候，不指定分割槽數那麼就是 2

當你的資料大於128M時候，Spark是為每一個快（block）建立一個分片（Hadoop-2.X之後為128m一個block）

1、從當前目錄讀取一個檔案

val path = "Current.txt"  //Current fold file
val rdd1 = sc.textFile(path,2)

從當前目錄讀取一個Current.txt的檔案

2、從當前目錄讀取多個檔案

val path = "Current1.txt，Current2.txt，"  //Current fold file 
val rdd1 = sc.textFile(path,2)

從當前讀取兩個檔案，分別是Cuttent1.txt和Current2.txt

3、從本地系統讀取一個檔案

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/README.md"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統讀取一個檔案，名字是README.md

4、從本地系統讀取整個資料夾

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統中讀取licenses這個資料夾下的所有檔案

這裡特別注意的是，比如這個資料夾下有35個檔案，上面分割槽數設定是2，那麼整個RDD的分割槽數是35*2？

這是錯誤的，這個RDD的分割槽數不管你的partition數設定為多少時，只要license這個資料夾下的這個檔案a.txt

(比如有a.txt)沒有超過128m，那麼a.txt就只有一個partition。那麼就是說只要這35個檔案其中沒有一個超過

128m，那麼分割槽數就是 35個

5、從本地系統讀取多個檔案

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-scala.txt,file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-spire.txt"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統中讀取file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/下的LICENSE-spire.txt和

LICENSE-scala.txt兩個檔案。上面分割槽設定是2，那個RDD的整個分割槽數是2*2

6、從本地系統讀取多個資料夾下的檔案（把如下檔案全部讀取進來）

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*"  //local file
val rdd1 = sc.textFile(path,2)

採用萬用字元的形式來代替檔案，來對資料資料夾進行整體讀取。但是後面設定的分割槽數2也是可以去除的。因為一個檔案沒有達到128m，所以上面的一個檔案一個partition，一共是20個。

7、採用萬用字元，來讀取多個檔名類似的檔案

比如讀取如下檔案的people1.txt和people2.txt,但google.txt不讀取

for (i <- 1 to 2){
      val rdd1 = sc.textFile(s"/root/application/temp/people$i*",2)
    }

8、採用萬用字元讀取相同字尾的檔案

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*.txt"  //local file
val rdd1 = sc.textFile(path,2)

9、從HDFS讀取一個檔案

val path = "hdfs://master:9000/examples/examples/src/main/resources/people.txt"
val rdd1 = sc.textFile(path,2)

從HDFS中讀取檔案的形式和本地上一樣，只是前面的路徑要表明是HDFS中的

        </div>
            </div>
        </article>

java讀取寫入檔案幾種方式效率比較

public class ReadTxtJson {public static String readTxtFile(String FileName) throws Exception {BufferedInputStream bufferedInputStream = n

Spark 讀取外部檔案的幾種方式

textFile函式 /** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supported f

python 讀取影象的幾種方式

1. skimage from skimage import io img=io.imread('d:/dog.jpg',as_grey=True) #顯示影象 io.imshow(img) #儲存影象 io.imsave('d:/cat.jpg',img) 2. PIL中的I

關於Vue下元件引入第三方外部Js幾種方式

第一種方式：利用Vue的mounted生命週期 const oScript = document.createElement('script'); oScript.type = 'text/javascript'; oScript.src = '//g.alicdn.com/sd/smartCap

影象處理五：python讀取圖片的幾種方式

一、讀取圖片方式 PIL、opencv、scikit-image：（1）PIL和Pillow只提供最基礎的數字影象處理，功能有限；（2）opencv實際上是一個c++庫，只是提供了python介面，更新速度非常慢

Asp.net下載檔案幾種方式

protected void Button1_Click(object sender, EventArgs e) { /* 微軟為Response物件提供了一個新的方法TransmitFile來解決使用Response.BinaryWrite 下載超過400mb的檔案時導致Aspnet_wp.

QT中讀取XML檔案三種方式的例項

第一部分：QXmlStreamReader XML（eXtensible Markup Language）是一種通用的文字格式，被廣泛運用於資料交換和資料儲存（雖然近年來 JSON 盛行，大有取代 XML 的趨勢，但是對於一些已有系統和架構，比如 WebService，由於歷史原因，仍舊會繼

Python專案讀取配置的幾種方式

1. 將配置寫在Python檔案中配置檔案(config.py 或 settings.py) 通常放置在程式原始碼的目錄，方便引用　配置檔案 # settings.py class Config(object): DEBUG = False TESTING = False

springBoot使用Controller讀取配置檔案兩種方式&讀取自定義配置方法

Controller 核心配置檔案 application.propertie web.msg=Hello! This is Controller demo; Controller:

asp.net 下載檔案幾種方式

protected void Button1_Click(object sender, EventArgs e) { /* 微軟為Response物件提供了一個新的方法TransmitFile來解決使用Response.BinaryWrite 下載超過400mb的檔案時導

SpringBoot讀取配置的幾種方式

Spring Boot使用了一個全域性的配置檔案application.properties或者application.yml，放在src/main/resources目錄下或者類路徑的/config下。Sping Boot的全域性配置檔案的作用是對一些預設配置的配置值進

檢視spark任務日誌的幾種方式

spark執行的任務往往通過web來檢視，但是，當執行的是sparkStreaming任務時，日誌往往會很大，web檢視並不方便，因此需要定位到伺服器上去看。下面將分別介紹兩種檢視driver端和executor端日誌的方式。一、web端日誌的檢視：下面是四個yarn

Java讀取resource檔案/路徑的幾種方式

方式一： String fileName = this.getClass().getClassLoader().getResource("檔名").getPath();//獲取檔案路徑 String fileUtl = this.getClass().getResource("檔名").getFi

Python讀取WAV檔案的幾種方式整理

1）scipy from scipy.io import wavfile import numpy as np sample_rate, sig = wavfile.read('new.wav') print("取樣率: %d" % sample_rate) print(sig)

Java 讀取 .properties 配置檔案的幾種方式

Java 開發中，需要將一些易變的配置引數放置再 XML 配置檔案或者 properties 配置檔案中。然而 XML 配置檔案需要通過 DOM 或 SAX 方式解析，而讀取 properties 配置檔案就比較容易。介紹幾種讀取方式： 1、基於ClassLoder

Java 讀取 properties 配置檔案的幾種方式及注意點

1、引言 java開發中，經常需要讀取配置檔案，有時即使我們方法是對的，但是就是讀取不到需要的內容，會報下面的錯： java.io.FileNotFoundException: sr/configure/config.properties (No such file or dir

springboot 讀取配置檔案內容的幾種方式

1 使用 Environment 進行讀取 env.getProperty("配置檔案中的值") 2 使用註解的方式 @PropertySource("classpath:applic

【JavaEE】讀取配置檔案路徑的幾種方式

讀取配置檔案的各種方式 1.類載入器讀取：只能讀取classes或者類路徑中的任意資源，但是不適合讀取特別大的資源。 ①獲取類載入器 ClassLoader cl = 類名.class.getClassLoader(); ②呼叫類載入器物件的方法：

Spring Boot 讀取配置檔案的幾種方式

Spring Boot 讀取配置檔案的方式可以分為 1. 註解 2. 獲取 Spring Boot 的環境變數來獲取配置檔案的資訊，其中註解的方式又有集中表現形式。第一步：建立 Spring Boot 工程（ Maven 工程新增 Spring B

java讀取配置檔案的幾種方式

web工程一般都會連線資料庫，然而載入資料庫配置檔案主要有幾種。1.讀取properties檔案，連線資料庫 //這是最簡單的方式,注：config.properties在src目錄下#DB Properties Driver=com.microsoft.sqlserve

Spark 讀取外部檔案的幾種方式

相關推薦