spark幾種讀檔案的方式

阿新 • • 發佈：2018-11-28

spark.read.textFile和sc.textFile的區別

val rdd1 = spark.read.textFile("hdfs://han02:9000/words.txt") 　　//讀取到的是一個RDD物件

val rdd2 = sc.textFile("hdfs://han02:9000/words.txt")　　//讀取到的是一個Dataset的資料集

分別進行單詞統計的方法:

rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false)
rdd2.flatMap(x=>x.split(" ")).groupByKey(x=>x).count()

前者返回Array[(String,Int)],後者返回Array[(String,Long)]

TextFile(url,num)///num為設定分割槽個數檔案超過(128)

1.從當前目錄讀取一個檔案:

val path = "Current.txt"  //Current fold file
val rdd1 = sc.textFile(path,2)

2.從當前目錄讀取一個檔案:

val path = "Current1.txt，Current2.txt，"  //Current fold file
val rdd1 = sc.textFile(path,2 
)

3.從本地讀取一個檔案:

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/README.md"  //local file
val rdd1 = sc.textFile(path,2)

4.從本地讀取一個資料夾中的內容:

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/"  //local file
val rdd1 = sc.textFile(path,2)

5.從本地讀取一個多個檔案:

val path = " 
file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-scala.txt,file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-spire.txt"  //local file
val rdd1 = sc.textFile(path,2)

6.從本地讀取多個資料夾中的內容:

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*"  //local file
val rdd1 = sc.textFile(path,2)

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*.txt" //local file,指定字尾名檔案
val rdd1 = sc.textFile(path,2)

7.採用萬用字元讀取相似的檔案中的內容:

for (i <- 1 to 2){
      val rdd1 = sc.textFile(s"/root/application/temp/people$i*",2)
    }

eg:google中的檔案讀取不了

spark幾種讀檔案的方式

spark.read.textFile和sc.textFile的區別 val rdd1 = spark.read.textFile("hdfs://han02:9000/words.txt") 　　//讀取到的是一個RDD物件 val rdd2 = sc.textFile("hdfs://han02:90

GoLang幾種讀檔案方式的比較

GoLang提供了很多讀檔案的方式，一般來說常用的有三種。使用Read加上buffer，使用bufio庫和ioutil 庫。那他們的效率如何呢？用一個簡單的程式來評測一下： Go程式碼 package main import( "fmt"

java指定編碼的按行讀寫txt檔案（幾種讀寫方式的比較）

輸入輸出的幾種形式 1.FileReader，FileWriter File r = new File("temp.txt") FileReader f = new FileReader(name);//讀取檔案name BufferedReader b = new Buf

C++檔案讀寫之獲取檔案大小的幾種常見的方式

對檔案操作時有時獲得檔案的大小時必要的.下面是獲得其大小小的較簡單方法. #include<io.h> //C語言標頭檔案 #include<iostream> //for s

java.io幾種讀寫文件的方式

同事 com pan 語言格式 str 字節流 get 實用一、Java把這些不同來源和目標的數據都統一抽象為數據流。　　Java語言的輸入輸出功能是十分強大而靈活的。　　在Java類庫中，IO部分的內容是很龐大的，因為它涉及的領域很廣泛:標準輸入輸出，文件的操作，

JAVA幾種讀取檔案的方式

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import java.io.FileWriter; import java.

python下幾種開啟檔案的方式（你習慣的不一定是最好的）

昨天看完了這本python進階，感覺這本書對我啟發很大，做了三張紙的筆記，方便我在遇到問題的時候翻閱，然後尋找可能的解決方案。作為一個使用python一年的小白，雖然說不是小白，但是這一年來基本上是用什麼學什麼，對python沒有系統的學習過，900多頁的厚

幾種讀大檔案方法的效率對比測試

說明： 1、首先呼叫了 generateBigFile() 生成一個大的txt 檔案 a.txt，大小是 1.88G 。 package com.other.test1; import java.io.BufferedReader; import java.io.Fi

C# 對文字檔案的幾種讀寫方法總結

計算機在最初只支援ASCII編碼，但是後來為了支援其他語言中的字元（比如漢字）以及一些特殊字元（比如€），就引入了Unicode字符集。基於Unicode字符集的編碼方式有很多，比如UTF-7、UTF-8、Unicode以及UTF-32。在Windows作業系統中，一個文

spark學習(基礎篇)--(第三節)Spark幾種運行模式

一些記錄 image ica runner 1.3 函數 ive 啟動 driver h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff

nginx upstream 常用的幾種調度方式

均衡 gin 字節默認結果根據主機 upstream 指定 nginx可以根據客戶IP進行負載均衡,在upstream裏設置ip_hash,以可以對同一個C類地址段的客戶端選擇同一個後端服務器,除非那個後端服務器宕了才會換一個.C類地址:C類地址第1字節、第2字節和

Vue2 幾種常見開局方式

fig elm temp common disable .... false app oot 在SF問題中看到了一個關於vue-cli中的template問題，問題是這樣的：用vue-cli工具生成的main.js中： import Vue from ‘vue‘ i

最近接觸的幾種APP支付方式——支付寶支付

.net core 很多 app 用法 http 相同沒有圖片 app支付項目是在VS2017上、基於.net core 開發的web api 接口所有的支付接入之前都要先申請好自己的商戶平臺，還有有一個賬戶用於測試使用，這些沒有事先配置好，那麽接下來的開發會無從下

愛創課堂每日一題第五十八天-javascript對象的幾種創建方式

前端前端學習前端入門北京前端1，工廠模式2，構造函數模式3，原型模式4，混合構造函數和原型模式5，動態原型模式6，寄生構造函數模式7，穩妥構造函數模式愛創課堂每日一題第五十八天-javascript對象的幾種創建方式

javascript對象的幾種創建方式整理

添加屬性和方法 {} ceo this scrip 方法 alert type 1.工廠模式 //工廠模式雖然解決了創建多個相似對象的問題，但卻沒有解決對象識別的問題（即怎樣知道一個對象的類型）。 function createPerson(name,age,job){

JS對象的幾種創建方式

push 排序 pos 即使重復字符 order data 默認返回值 1、join() join(separator): 將數組的元素組起一個字符串，以separator為分隔符，省略的話則用默認用逗號為分隔符，該方法只接收一個參數：即分隔符。 1 2

SQL Server中幾種遍歷方式比較

不同 .com font size 常用分享分享圖片遊標 inf SQL遍歷解析　　在SQL的存儲過程，函數中，經常需要使用遍歷（遍歷table），其中遊標、臨時表等遍歷方法很常用。面對小數據量，這幾種遍歷方法均可行，但是面臨大數據量時，就需要擇優選擇，不同的遍歷方

應用層與內核的幾種通信方式

物理內存是什麽 nts iat 其他輸入緩沖 BE virt getc 應用程序與驅動程序據我所知，細分可以分6種，ReadFile，WirteFile方式的緩沖區設備讀寫，直接方式讀寫，和其他方式讀寫。Io設備控制操作（即DeviceControl)的緩沖內存模式IO

創建線程有幾種不同的方式？你喜歡哪一種？為什麽？

什麽 all HR thread 同時應用設計創建線程 callable 應用程序創建線程有四種不同的方式： 1、繼承Thread類 2、實現Runnable接口 3、應用程序可以使用Executor框架來創建線程池 4、實現Callable接口我更喜歡實現Ru

幾種布局方式

技術分享 sel tween 一定的交叉寬高模式了解 span 一、固定布局：寬度，高度固定，頁面被一個固定網頁包裹，容器不能移動，頁面的寬高不隨頁面的變化而變化，這種布局大家比較熟悉，這種方式一度成為頁面布局的主流方式，這樣布局設計簡單，更容易定義，

spark幾種讀檔案的方式

相關推薦