Spark---WC---Spark從外部讀取資料之textFile

阿新 • • 發佈：2018-12-17

測試資料

hello spark
hello hadoop
csdn hadoop
csdn csdn
hello world

結果

(spark,1)
(hadoop,2)
(csdn,3)
(hello,3)
(world,1)

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WC {

    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setAppName("WC").setMaster("local")
        val sc: SparkContext = new SparkContext(conf)
        val path = "file:///" + System.getProperty("user.dir") + "/data4test/WC.txt"

        val outpath="file:///" + System.getProperty("user.dir") + "/data4test/WC4result.txt"

        //textFile會產生兩個RDD  HadoopRDD 和 MapPartitionsRDD
        val hadoopRDD: RDD[String] = sc.textFile(path)
        //產生一個RDD==>MapPartitionsRDD
        val mapPartitionsRDD_1: RDD[String] = hadoopRDD.flatMap(line => line.split(" "))
        //產生一個RDD==>MapPartitionsRDD
        val mapPartitionsRDD_2: RDD[(String, Int)] = mapPartitionsRDD_1.map(word => (word, 1))
        //產生一個RDD==>ShuffledRDD
        val shuffleRDD: RDD[(String, Int)] = mapPartitionsRDD_2.reduceByKey((a,b)=>a+b)
        shuffleRDD.saveAsTextFile(outpath)
        sc.stop()
    }
}

SparkContext--textFile函式

原始碼過程

SparkContext.scala	HadoopRDD.scala
textFile => hadoopFile=>	HadoopRDD

HadoopRDD

/** 
   * Read a text file from HDFS, a local file system (available on all nodes), or any 
   * Hadoop-supported file system URI, and return it as an RDD of Strings. 
   */  
  def textFile(  
      path: String,  
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {  
    assertNotStopped()  
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],  
      minPartitions).map(pair => pair._2.toString).setName(path)  
  }

分析引數：

path: String 是一個URI，這個URI可以是HDFS、本地檔案（全部的節點都可以），或者其他Hadoop支援的檔案系統URI返回的是一個字串型別的RDD，也就是是RDD的內部形式是Iterator[(String)]

minPartitions= math.min(defaultParallelism, 2) 是指定資料的分割槽，如果不指定分割槽，

當你的核數大於2的時候，不指定分割槽數那麼就是 2

當你的資料大於128M時候，Spark是為每一個快（block）建立一個分片（Hadoop-2.X之後為128m一個block）

def hadoopFile[K, V](
      path: String,
      inputFormatClass: Class[_ <: InputFormat[K, V]],
      keyClass: Class[K],
      valueClass: Class[V],
      minPartitions: Int = defaultMinPartitions): RDD[(K, V)] = withScope {
    assertNotStopped()
    //   A Hadoop configuration can be about 10 KB, which is pretty big, so broadcast it.
    //   廣播hadoop配置檔案
    val confBroadcast = broadcast(new SerializableConfiguration(hadoopConfiguration))
    val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths(jobConf, path)
    new HadoopRDD(
      this,//SparkContext
      confBroadcast,
      Some(setInputPathsFunc),
      inputFormatClass,
      keyClass,
      valueClass,
      minPartitions).setName(path)
  }

1、從當前目錄讀取一個檔案

val path = "Current.txt"  //Current fold file
val rdd1 = sc.textFile(path,2)

從當前目錄讀取一個Current.txt的檔案

2、從當前目錄讀取多個檔案

val path = "Current1.txt，Current2.txt，"  //Current fold file
val rdd1 = sc.textFile(path,2)

從當前讀取兩個檔案，分別是Cuttent1.txt和Current2.txt

3、從本地系統讀取一個檔案

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/README.md"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統讀取一個檔案，名字是README.md

4、從本地系統讀取整個資料夾

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統中讀取licenses這個資料夾下的所有檔案

這裡特別注意的是，比如這個資料夾下有35個檔案，上面分割槽數設定是2，那麼整個RDD的分割槽數是35*2？

這是錯誤的，這個RDD的分割槽數不管你的partition數設定為多少時，只要license這個資料夾下的這個檔案a.txt

(比如有a.txt)沒有超過128m，那麼a.txt就只有一個partition。那麼就是說只要這35個檔案其中沒有一個超過

128m，那麼分割槽數就是 35個

5、從本地系統讀取多個檔案

val path = "file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-scala.txt,file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/LICENSE-spire.txt"  //local file
val rdd1 = sc.textFile(path,2)

從本地系統中讀取file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/licenses/下的LICENSE-spire.txt和LICENSE-scala.txt兩個檔案。上面分割槽設定是2，那個RDD的整個分割槽數是2*2

6、從本地系統讀取多個資料夾下的檔案（把如下檔案全部讀取進來）

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*"  //local file
val rdd1 = sc.textFile(path,2)

採用萬用字元的形式來代替檔案，來對資料資料夾進行整體讀取。但是後面設定的分割槽數2也是可以去除的。因為一個檔案沒有達到128m，所以上面的一個檔案一個partition，一共是20個。

7、採用萬用字元，來讀取多個檔名類似的檔案

比如讀取如下檔案的people1.txt和people2.txt,但google.txt不讀取

for (i <- 1 to 2){
      val rdd1 = sc.textFile(s"/root/application/temp/people$i*",2)
    }

8、採用萬用字元讀取相同字尾的檔案

val path = "/usr/local/spark/spark-1.6.0-bin-hadoop2.6/data/*/*.txt"  //local file
val rdd1 = sc.textFile(path,2)

9、從HDFS讀取一個檔案

val path = "hdfs://master:9000/examples/examples/src/main/resources/people.txt"
val rdd1 = sc.textFile(path,2)

從HDFS中讀取檔案的形式和本地上一樣，只是前面的路徑要表明是HDFS中的

Spark---WC---Spark從外部讀取資料之textFile

測試資料 hello spark hello hadoop csdn hadoop csdn csdn hello world 結果 (spark,1) (hadoop,2) (csdn,3) (hello,3) (world,1) import org.

spark部分json從檔案讀取資料【java純程式碼】

package com.bjsxt; import org.apache.hadoop.hdfs.server.namenode.dfsclusterhealth_jsp; import org.apache.spark.SparkConf; import org.apac

spark從mysql讀取資料（redis/mongdb/hbase等類似，換成各自RDD即可）

package com.ws.jdbc import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkCont

Spark將資料寫入Hbase以及從Hbase讀取資料

本文將介紹 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset將RDD寫入hbase 2、spark從hbase中讀取資料並轉化為RDD 操作方式為在eclipse本地執行spark連線到遠端的hbase。 ja

IOS成長之路-從網路讀取資料

邏輯：首先建立一個NSURL地址，傳送request請求，然後呼叫 - (void)connection:(NSURLConnec

閉包的3種方法以及如何從外部讀取局部變量

argument 實現構造全局 cti set 既然 on() 情況閉包常用的3種中方法 1. 通過在函數中創建函數，並返回來延遲作用域鏈的存在時間（掌握執行環境／作用域鏈／this／活動對象／arguments／全局對象概念的理解） 2. 模仿塊級作用域（java

tensorflow--從檔案讀取資料

讀取資料-csv tensorflow讀取資料流程構造檔案佇列讀取佇列內容 reader = tf.TextLineReader() 解析成一個樣本資料 example, label = tf.decode_csv(value, record_defaults

jQueryAjax++servlet+json實現頁面載入時從後臺讀取資料

在eclipse中新建一個專案，我起名為Demo 新建一個html檔案，在其中引入外部jQuery和自定義的js檔案 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <sc

Oracle 使用SQL Loader 從外部匯入資料

在專案中經常會有一些基礎資料需要從Excel或其他檔案中匯入。大部分的格式都是樹結構。如果是這樣，我們對資料稍加整理，即可使用Oracle的資料匯入工具SQL Loader匯入我們所需要的資料到指定的表中。SQL Loader的詳細用法，可自己查詢相關詳細的文件，這裡只做簡單的使用介紹。 1

Kafka——Kafka消費者（從Kafka讀取資料）

KafkaConsumer概念消費者和消費者群組假設我們有一個應用程式需要從一個Kafka 主題讀取訊息並驗證這些訊息，然後再把它們儲存起來。應用程式需要建立一個消費者物件，訂閱主題並開始接收訊息，然後驗證訊息井儲存結果。過了一陣子，生產者往主題寫入訊息的速度超過了應用程式驗證資料的

pandas從excel讀取資料處理的注意事項

##excel中支援的資料型別較pandas多的多因為從excel讀取的資料型別很多預設是object，資料處理前建議轉換成str等。pandas中當多列同為object時，實際資料不相同。如merge時 ggg=pd.merge(cs,c,how="inner",lef

Kafka消費者——從 Kafka讀取資料

應用程式使用 KafkaConsumer向 Kafka 訂閱主題，並從訂閱的主題上接收訊息。從 Kafka 讀取資料不同於從其他悄息系統讀取資料，它涉及一些獨特的概念和想法。如果不先理解這些概念，就難以理解如何使用消費者 API。所以我們接下來先解釋這些重要的概念，然

Java呼叫R ，從資料庫讀取資料，用R根據讀取的資料生成圖片儲存

Java呼叫R 以及用R生成的圖片儲存使用 png()可以保證圖片質量有人說繪製的圖片上有中文會出現亂碼，其實設定下字型就好了 family=‘STXihei’ Java呼叫R 以及用R生成的圖片儲存 Rserve的配置和啟動： ①安裝Rserve包。

tensorflo讀取資料之dataset

一、Tensorflow讀入資料的三種方式 1 Feeding: Python code provides the data when running each step 2 Reading from files: an input pipeline rea

從GPU讀取資料到系統記憶體的三種方式

方法一：glReadPixels 首先建立一個fbo，繫結fbo後，attach上需要操作的texture，再進行讀取。 if(fbo == 0) { glGenFramebuffers(1, &fbo); } glBindFramebuffer(GL_F

[C#] 從資料庫讀取資料並輸出

連線資料庫,並從資料庫中讀取資料後並輸出! using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Data.SqlClient

使用pandas模組從資料庫讀取資料（轉）

轉自：http://www.tuicool.com/articles/ZVzEz2N Python中用Pandas進行資料分析,最常用的就是Dataframe資料結構，之前寫過一篇文章介紹Pandas的基本用法，後來有些朋友問Pandas怎麼從資料庫中讀取資料，怎麼從檔

從資料庫讀取資料動態生成樹形選單示例

用C#從資料庫讀取資料，動態生成樹形選單例子資料庫表前臺程式碼 <%@ Page Language="C#" AutoEventWireup="true" CodeFile="demo.aspx.cs" Inherits="demo" %> <!DO

Jquery載入時從後臺讀取資料繫結到dropdownList

$(document).ready(function () { loadSchools(); }); function loadSchools() { var url = "@Url.Action("GetSchools")";

flume從本地讀取資料錄入到hdfs檔案系統

配置檔案 agent.sources = origin agent.channels = memorychannel agent.sinks = target agent.sources.origin.type = TAILDIR agent.source

Spark---WC---Spark從外部讀取資料之textFile

相關推薦