Spark基礎轉換及行動操作（python實驗）

阿新 • • 發佈：2019-01-29

注意：實驗前先引入包from pyspark.context import SparkContext ，還需配置 sc = SparkContext('local', 'test') ，然後才能用sc做操作。

一、常見的轉換操作

1、map() : 將函式應用於RDD中的每個元素，將返回值構成新的RDD

2、flatMap() ：將函式應用於RDD 中的每個元素，將返回的迭代器的所有內容構成新的RDD。通常用來切分單詞（以[1,2,3,4]資料集為例）

3、filter() ：返回一個由通過傳給filter()的函式的元素組成的RDD

4、distinct() ：去重

5、sample(withReplacement, fraction, [seed]) ：對RDD取樣，以及是否替換（就是隨機取幾個出來，所以每次結果可能不一樣）。

以上是對一個數據集處理，下面是針對兩個以上的資料集

1、union() ：生成一個包含兩個RDD 中所有元素的RDD（是所有，不得去重）

2、intersection() ：求兩個RDD 共同的元素的RDD

3、subtract() ：移除一個RDD 中的內容（例如移除訓練資料）

4、cartesian() ：與另一個RDD 的笛卡兒積

二、常見的行動操作

1、reduce() ：它接收一個函式作為引數，這個函式要操作兩個RDD 的元素型別的資料並返回一個同樣型別的新元素。

上面例子中，若傳入列表結果為9；若傳入集合結果為6，這是因為python集合會去重了才作為引數傳入計算。

2、fold() ：它和reduce() 類似，接收一個與reduce() 接收的函式簽名相同的函式，再加上一個“初始值”來作為每個分割槽第一次呼叫時的結果

3、collect() ：返回RDD中的所有元素

注意：使用collect()要求資料不是很大，所有資料都必須能一同放入單臺機器的記憶體中，常用於單元測試中。

4、count() ：RDD 中的元素個數

5、countByValue()：各元素在RDD 中出現的次數

實驗得知，python返回的是一個字典，通過鍵可以獲取對應次數。

6、take(num) ：從RDD中返回num個元素

7、top(num) ：從RDD中返回最前面的num個元素

8、takeOrdered(num)：函式用於從RDD中，按照預設（降序）或者指定的排序規則，返回前num個元素。

9、takeSample(withReplacement, num, [seed])：從RDD中返回任意一些元素

10、aggregate(zeroValue)(seqOp, combOp)：和reduce() 相似，但是通常返回不同型別的函式

11、foreach(func)：對RDD中的每個元素使用給定的函式

Spark基礎轉換及行動操作（python實驗）

注意：實驗前先引入包from pyspark.context import SparkContext ，還需配置 sc = SparkContext('local', 'test') ，然後才能用sc做操作。一、常見的轉換操作1、map() : 將函式應用於RDD中的每個元素

redis 在Windows下的安裝及基本操作（更新中~~~）

有用 redis 安裝 abc nbsp com inux eas pan 安裝目錄 Redis 安裝 Window 下安裝下載地址：https://github.com/MSOpenTech/redis/releases。 Redis 支持 32 位和 64 位。這個需

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

spark中各種transformation運算元操作（scala版）

package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

布隆過濾器（Bloom Filters）的原理及程式碼實現（Python + Java）

本文介紹了布隆過濾器的概念及變體，這種描述非常適合程式碼模擬實現。重點在於標準布隆過濾器和計算布隆過濾器，其他的大都在此基礎上優化。文末附上了標準布隆過濾器和計算布隆過濾器的程式碼實現（Java版和Python版）本文內容皆來自《Foundations of Computers Systems Rese

Python基礎-----初識及變量（二）

bin cdm 環境變量執行註意 Coding 配置環境中文 bsp 1、python文件的後綴名理論上是可以是任意的，但是註意：當寫好的python文件要作為模塊導入時，其後綴必須是.py。所以python文件後綴名最好是.py。 2、不同系統下執行py文件的

在python中使用opencv將RGB影象轉換為HSV及YCrCb影象（附程式碼）

【時間】2018.11.01 【題目】在python中使用opencv將RGB影象轉換為HSV及YCrCb影象（附程式碼）目錄概述一、程式碼實現二、執行結果三、關於HSV及YCrCb的一點補充 3.1HSV顏色空間 3.2 YCRCBA顏色空間

學生管理系統（資料庫版本）（sqlite3版本）；淺析資料庫的基礎用法及實際操作

大家好，我是道長王也。如果我不學程式碼，就要回家繼承千億家產。我不想那樣，我不想讓就金錢腐蝕我的靈魂，我想通過自己的努力去過自己想要的人生。好了閒話不說。今天我們來淺談資料庫（為什麼說淺談，因為往深了說勞資不會！）引題為什麼使用資料庫：之前的學習中我們

Hibernate基礎學習之實體類（持久化類）的編寫規則及相關操作（CRUD）

實體類與表名一一對應，類中的屬性與表中的列名（column）一一對應，中類名.hbm.xml中配置；編寫規則（1）實體類中的屬性都是private私有的；（2）私有屬性的setter和getter方法都是共有的public；（3）要求實體類必須要有一個屬性作為唯一值（需要與表

Linux常用命令及操作（第二彈）

linux home .gz 紅旗關閉 linu tty 歸檔文件過程 Ctrl l清屏 Ctrl d關閉終端 Ctrl Alt T打開終端 pwd 查看當前的目錄 Shift Ctrl C復制 Shift Ctrl V粘貼 Shift Ctrl N打開新的終端 F1

【Spark MLlib速成寶典】模型篇04樸素貝葉斯【Naive Bayes】（Python版）

width pla evaluate 特征 mem order 一個數 ble same 目錄　　樸素貝葉斯原理　　樸素貝葉斯代碼(Spark Python) 樸素貝葉斯原理　　詳見博文：http://www.cnblogs.com/itmor

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

back filter oms sse mlu eval ffffff size red 目錄　　決策樹原理　　決策樹代碼(Spark Python) 決策樹原理　　詳見博文：http://www.cnblogs.com/itmorn/p/79

python全棧開發基礎【補充】metaclass（元類）

認識全棧 rgs bubuko class a alt 創建繼承圖片一、創建類的執行流程二、元類的認識什麽是元類呢？在Python3中繼承type的就是元類二、元類的示例 # 方式一 class MyType(type): ‘‘‘繼承type

python 從小白開始 - 字符串操作（不可修改）

code ant index 索引 span 打印大寫 div 分隔字符串操作不可修改 1 say = "hello , World，66" 2 print(say.capitalize()) #輸出Hello , world，66

rabbitmq安裝及基本操作（含集群配置）

home 操作 14. 關系裝包 del protocol otp examples 一、rabbitmq的安裝因為rabbitmq是基於 erlang語言開發，所有要先安裝erlang 1、安裝erlang 這裏我下載的是19.2的版本，地址為https://w

地理空間分析中的常用python操作（持續更新）

本章節主要參考《python地理空間分析指南》第五章的內容。一、距離測量距離測量包括歐式距離，球面距離，以及大地線距離（橢球距離）。主要採用math庫（標準庫，無需下載）進行運算。 1.歐式距離計算任意兩點之間的距離可以採用距離公式： &nb

DB2基礎操作（Linux平臺）

1 、db2安裝解壓tar.gz包，執行其中的db2_install檔案，預設安裝路徑是/opt/ibm/db2/版本號/，這裡3.96是安裝在了/db2/db2_installpath/中。 2 、查詢當前系統有多少個instance?停止某個instance

【深度學習數學基礎】向量點乘（內積）和叉乘（外積、向量積）概念及幾何意義解讀

1. 點乘向量的點乘,也叫向量的內積、數量積，對兩個向量執行點乘運算，就是對這兩個向量對應位一一相乘之後求和的操作，點乘的結果是一個標量。對於向量a和向量b：

演算法基礎--hash表（Python版）

雜湊查詢是通過計算資料元素的儲存地址進行查詢的一種方法。將元素通過某個函式，轉化為一個數（x），儘可能的讓這些元素對應的數具有唯一性，查詢時即可通過函式f（x）來找到元素所在的為位置（hash表也就是某種函式的對應關係） #除法取餘法來實現的雜湊函式 def myHas

格雷碼轉換器（Python版）

介紹：小編制作的格雷碼轉化器使用字串進行操作，故對輸入長度沒有太大限制。效果如下圖所示：不廢話了，以下是程式碼： #!/usr/bin/python # -*- coding: UTF-8 -*- from tkinter import * from

Spark基礎轉換及行動操作（python實驗）

一、常見的轉換操作

二、常見的行動操作

相關推薦