Spark RDD 到 LabelPoint的轉換(包含構造臨時資料的方法)

阿新 • • 發佈：2019-01-09

題目: 將資料的某個特徵作為label, 其他特徵(或其他某幾個特徵)作為Feature, 轉為LabelPoint

首先構造資料

import scala.util.Random.{setSeed, nextDouble}
setSeed(1)

case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double)

val rows = sc.parallelize(
    (1 to 10).map(_ => Record(
        nextDouble, nextDouble, nextDouble, nextDouble, nextDouble
   ))
)
val 
 df = sqlContext.createDataFrame(rows)
df.registerTempTable("df")

sqlContext.sql("""
  SELECT ROUND(foo, 2) foo,
         ROUND(target, 2) target,
         ROUND(x1, 2) x1,
         ROUND(x2, 2) x2,
         ROUND(x2, 2) x3 
  FROM df""").show

得到的資料如下:

+----+------+----+----+----+
| foo|target|  x1|  x2|  x3|
+----+------+----+----+----+ 

|0.73|  0.41|0.21|0.33|0.33|
|0.01|  0.96|0.94|0.95|0.95|
| 0.4|  0.35|0.29|0.51|0.51|
|0.77|  0.66|0.16|0.38|0.38|
|0.69|  0.81|0.01|0.52|0.52|
|0.14|  0.48|0.54|0.58|0.58|
|0.62|  0.18|0.01|0.16|0.16|
|0.54|  0.97|0.25|0.39|0.39|
|0.43|  0.23|0.89|0.04|0.04|
|0.66|  0.12|0.65|0.98|0.98|
+----+------+----+----+----+

假設我們想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3)):

import org.apache.spark.mllib.linalg.{Vector, Vectors}  
import org.apache.spark.mllib.regression.LabeledPoint 

// Map feature names to indices
val featInd = List("x1", "x3").map(df.columns.indexOf(_))

// Or if you want to exclude columns
val ignored = List("foo", "target", "x2")
val featInd = df.columns.diff(ignored).map(df.columns.indexOf(_))

// Get index of target
val targetInd = df.columns.indexOf("target") 

df.rdd.map(r => LabeledPoint(
   r.getDouble(targetInd), // Get target value
   // Map feature indices to values
   Vectors.dense(featInd.map(r.getDouble(_)).toArray) 
))

Spark RDD 到 LabelPoint的轉換(包含構造臨時資料的方法)

題目: 將資料的某個特徵作為label, 其他特徵(或其他某幾個特徵)作為Feature, 轉為LabelPoint 首先構造資料 import scala.util.Random.{setSeed, nextDouble} setSeed(1

Spark核心類：彈性分散式資料集RDD及其轉換和操作pyspark.RDD

彈性分散式資料集RDD(Resilient Distributed Dataset)術語定義l彈性分散式資料集（RDD）： Resillient Distributed Dataset，Spark的基本計算單元，可以通過一系列運算元進行操作（主要有Transformation

Spark RDD轉換成其他資料結構

在Spark推薦系統程式設計中，一般都是通過檔案載入成RDD： //在這裡預設 (userId, itemId, preference) val fields = sparkContext.textFile("").split("\t").map{ fie

Spark RDD轉換為DataFrame

person true line ted struct ger fields text san #構造case class，利用反射機制隱式轉換 scala> import spark.implicits._ scala> val rdd= sc.text

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark函數詳解系列之RDD基本轉換

9.png cal shuff reac 數組a water all conn data 摘要： RDD：彈性分布式數據集，是一種特殊集合 ? 支持多種來源 ? 有容錯機制 ? 可以被緩存 ? 支持並行操作，一個RDD代表一個分區裏的數據集 RDD有兩種操作算子： Tra

Spark之RDD運算元-轉換運算元

RDD-Transformation 轉換（Transformation）運算元就是對RDD進行操作的介面函式，其作用是將一個或多個RDD變換成新的RDD。使用Spark進行資料計算，在利用建立運算元生成RDD後，資料處理的演算法設計和程式編寫的最關鍵部分，就是利用

Spark函式詳解系列之RDD基本轉換

摘要： RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集 RDD有兩種操作運算元： Transformation（轉換）：Transformation屬於延遲計

Spark函式詳解系列之RDD基本轉換+例項

RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集 RDD有兩種操作運算元： &nbs

spark rdd 轉換和動作

2017-07-22 概述本文對spark rdd的轉換和動作進行總結和實際操作演示. RDD(Resilient Distributed Datasets),彈性分散式資料集，是spark分散式記憶體的一個抽象概念，RDD

Spark RDD--2 計算日誌相關資料

需求：日誌格式： IP 命中率響應時間請求時間請求方法請求URL 請求協議狀態嗎響應大小 referer 使用者代理 1、計算每一個IP的訪問次數 (114.55.227.102,9348) 2、計算每一個視訊訪問的IP數視訊：141

spark rdd 和 DF 轉換

RDD -》 DF 有兩種方式一、一、Inferring the Schema Using Reflection 將 RDD[t] 轉為一個 object ,然後 to df val peopleDF = spark.sparkContext .t

spark rdd根據key儲存進不同的資料夾

public class TextOutputFormat<K, V> extends FileOutputFormat<K, V> { //靜態內部類，LineRecordWriter，實現了RecordWriter。這個就是我們想要的 protected stati

Spark的RDD連續轉換操作有時需要注意強行觸發action執行操作，否則（Tansformation）的惰性（lazy）機制會導致結果錯誤

最近通過spark做一些資料處理，遇到一些詭異的現象我開發了一個隨機生成海量資料點的程式，因為要保證這些點具有自增序號，不適合直接map分散式做（幾十億的資料，map計算需要分割槽（不主動分割槽估計也會自動分割槽，spark自帶的資料累加邏輯只能對單個partitio

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark RDD/DataFrame map儲存資料的兩種方式

使用Spark RDD或DataFrame，有時需要在foreachPartition或foreachWith裡面儲存資料到本地或HDFS。直接儲存資料當然如果不需要在map裡面儲存資料，那麼針對RDD可以有如下方式 val rdd = // targ

Spark運算元:RDD基本轉換操作(5)–mapPartitions/mapPartitionsWithIndex

mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]

【spark，RDD，1】彈性分散式資料集RDD介紹

scala> val rdd = sc.textFile("hdfs://yarn1:8020/hmbbs_logs/access_2013_05_31.log") 16/04/27 21:45:41 INFO MemoryStore: ensureFreeSpace(219256) called w

Spark RDD基本概念、寬窄依賴、轉換行為操作

目錄 RDD概述 RDD的內部程式碼案例小總結轉換、行動運算元寬、窄依賴 Reference 本文介紹

【spark 深入學習 03】Spark RDD的蠻荒世界

解釋不難特性 bsp resid 易懂優化方式序列 RDD真的是一個很晦澀的詞匯，他就是伯克利大學的博士們在論文中提出的一個概念，很抽象，很難懂；但是這是spark的核心概念，因此有必要spark rdd的知識點，用最簡單、淺顯易懂的詞匯描述。不想用學術話的語言來

Spark RDD 到 LabelPoint的轉換(包含構造臨時資料的方法)

相關推薦