Spark入門（三）：RDD概述

阿新 • • 發佈：2019-01-08

1.RDD概述

Spark 對資料的核心抽象—彈性分散式資料集（Resilient Distributed Dataset，簡
稱 RDD）

1.1 不可變

RDD是一個不可變的分散式物件集合，一旦建立便不能修改。

1.2 分割槽

每個RDD都可被分為多個分割槽，分佈在不同的節點機器之上

1.3 轉換（transformation）

轉化操作會由一個 RDD 生成一個新的 RDD，從已有的RDD派生出新的RDD,Spark會使用譜系圖來記錄不同RDD之間的依賴關係。Spark需要用這些資訊來按需計算每個RDD,也可以依賴譜系圖在持久化的RDD丟失部分資料時恢復所丟失的資料。

1.4 行動（action）

行動操作會對 RDD 計算出一個結果，並把結果返回到驅動器程式中，或把結
果儲存到外部儲存系統中

1.5 惰性計算

當建立RDD或者從RDD派生RDD，spark都不會執行真正的計算，只有在第一次行動（action）執行時，才會執行真正的計算

val input = sc.textFile("derby.log") //此處並沒有真正的去讀取檔案
val count= input.count() // 程式執行到這裡才會去讀取檔案，並執行計算

程式碼驗證

scala> val rdd =sc.textFile("hdfs://master:9000/derby.log" 
)
rdd: org.apache.spark.rdd.RDD[String] = hdfs://master:9000/derby.log MapPartitionsRDD[1] at textFile at <console>:24

scala> rdd.count
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://master:9000/derby.log
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus 
(FileInputFormat.java:287)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:202)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
  at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:252)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:250)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:250)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:1958)
  at org.apache.spark.rdd.RDD.count(RDD.scala:1157)
  ... 48 elided

scala>

val rdd =sc.textFile(“hdfs://master:9000/derby.log”)使用一個不存在的路徑建立一個RDD,程式並沒有報錯，說明此時spark沒有去讀取檔案。當呼叫count時，程式報錯

Spark入門（三）：RDD概述

1.RDD概述 Spark 對資料的核心抽象—彈性分散式資料集（Resilient Distributed Dataset，簡稱 RDD） 1.1 不可變 RDD是一個不可變的分散式物件集合，一旦建立便不能修改。 1.2 分割槽每個RDD

Spark入門（四）：RDD基本操作

1.RDD轉換 RDD的所有轉換操作都不會進行真正的計算 1.1單個RDD轉換操作 # 建立測試RDD val rdd = sc.parallelize(Array("hello world","java","scala easy")) # 1.

Bootstrap入門（三）：Less

樣式 ttr edi local 編輯修改文件方便 code b2c 很多時候我們需要定制Bootstrap的樣式，然後根制入門初步中，每次都定制網頁（http://v3.bootcss.com/customize/）生成我們需要的Css是一件很麻煩又不方便的事件。幸好

性能測試入門（三）：性能測試工具

需求 pre tor 不足廠商 ecdh 腳本編寫 ssi 3.1 這篇文章介紹下性能測試工具：簡單模擬工具有很多場景下，我們只是想做一個簡單的壓測，對於監測結果要求並不高，壓測的場景也比較簡單，不想安裝復雜的工具，這種情況下，推薦使用簡單的模擬工具進行就可以了。 a

人工智慧入門（三）：機器學習問題的基本型別

1:concept learning:version space，decision tree等； 2:rule learning：If-then rules, association rules, genetic programming等； 3. instance-based learning（

Spring boot入門（三）：SpringBoot整合結合AdminLTE(Freemarker)，利用generate自動生成程式碼，利用DataTable和PageHelper進行分頁顯示

　　關於SpringBoot和PageHelper，前篇部落格已經介紹過Spring boot入門（二）：Spring boot整合MySql,Mybatis和PageHelper外掛，前篇部落格大致講述了SpringBoot如何整合Mybatis和Pagehelper,但是沒有做出實際的範例，本篇部落格是連

Spring Boot 入門（三）：自動化配置實現

自動化配置實現我們在上章編寫入門案例的時候，我們使用的是Spring Mvc 作為我們的表現層框架，但是我們都知道我們要使用Spring Mvc 我們就需要在web.xml檔案中配置Spring Mvc 的前端控制器DispatcherServlet。但是我們

Spark入門（七）：Spark執行時架構

在一個 Spark 叢集中，有一個節點負責中央協調，排程各個分散式工作節點。這個中央協調節點被稱為驅動器（Driver）節點，與之對應的工作節點被稱為執行器（executor）節點。驅動器節點可以和大量的執行器節點進行通訊，它們也都作為獨立的 Java

前端零基礎入門（三）：HTML，CSS，Javascript三者之間的關係

每個人接觸前端的角度可能都不一樣有些人是以前從事web相關行業的，比如後端，比如設計。從事這些行業的人因為工作需要，多多少少都會對前端有一定的瞭解，不一定是這個詞，但一定是這個職位小白的話，可能更多的聽到的是h5，css3之類的名詞，其實無論從哪個角度接

Jmeter入門（三）：新增響應斷言

在上一節中，選中http 請求的sample，右鍵新增-》斷言-》新增斷言，如下圖：在此設定斷言響應欄位為：Response Headers在要測試的模式中為：200如下圖：為了檢視斷言是否成功，在sample中新增檢視斷言結果如圖，斷言全部成功

Spring Security入門（三）：密碼加密

前文導讀Github 地址https://github.com/ChinaSilence/any

Redis入門（三）：Redis keys 命令和 Redis 字串命令

Redis keys 命令序號命令描述 1 DEL key 該命令用於在 key 存在時刪除 key，返回被刪除 key 的數量 2 DU

Flume快速入門（三）：File Channel之寫Event

有了前兩篇博文的基礎，相信大家對Flume Agent的內部結構已經有了個初步的瞭解，現在我們來詳細介紹最常用的檔案通道——File Channel，本篇部落格主要介紹Eevnt是如何完成寫到File Channel這一操作的。 Channel是聯絡Source和Sink的橋

eXosip入門（三）：eXosip庫的驗證

本次我們來驗證一下得到的eXosip庫是否可用。 PS：為什麼要驗證呢？不是編譯成庫後就可以直接使用麼？理論上是這樣的，但是現實是殘酷滴，編譯成庫檔案，只是噩夢的開始，學習的道路不會一帆風順。本次只是驗證eXosip庫是否可用，不需要很

Linux驅動入門篇（三）：基本的字符設備模塊(2)

連接 truct ace alloc orm 負數 -s tabs idt 　　上一節中介紹了設備號的申請和釋放，這一節開始了解字符設備的相關操作。　　首先定位到<linux/cdev.h>文件，查看內核提供給字符設備的接口。 cdev結構 str

Sping Boot入門到實戰之入門篇（三）：Spring Boot屬性配置

git 測試 add 禁用 rop fix ron org set 　　該篇為Sping Boot入門到實戰系列入門篇的第三篇。介紹Spring Boot的屬性配置。　　傳統的Spring Web應用自定義屬性一般是通過添加一個demo.properties配置文件（

Spark筆記整理（三）：Spark WC開發與應用部署

大數據 Spark [TOC] Spark WordCount開發創建的是maven工程，使用的依賴如下： <dependency> <groupId>org.scala-lang</groupId> <artifactId>scal

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

Spark Streaming筆記整理（三）：DS的transformation與output操作

job watermark number 這樣的格式 current fix work eat DStream的各種transformation Transformation Meaning map(func) 對DStream中的各個元素進行func函數操作，然後

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

Spark入門（三）：RDD概述

1.RDD概述

1.1 不可變

1.2 分割槽

1.3 轉換（transformation）

1.4 行動（action）

1.5 惰性計算

相關推薦