spark入門二（運算元介紹核wordcount入門）

阿新 • • 發佈：2018-12-25

[[email protected] ~]# cd /usr/local/apps/spark-2.3.2-bin-hadoop2.7/
[[email protected] spark-2.3.2-bin-hadoop2.7]# ./sbin/start-all.sh

啟動日誌如下：

starting org.apache.spark.deploy.master.Master, logging to /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
192.168.153.131: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slvae3.out
192.168.153.130: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave2.out
192.168.153.129: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave1.out
192.168.153.131: failed to launch: nice 
 -n 0 /usr/local/apps/spark-2.3.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
192.168.153.130: failed to launch: nice -n 0 /usr/local/apps/spark-2.3.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
192.168.153.130: full log in 
 /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave2.out
192.168.153.131: full log in /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slvae3.out
192.168.153.129: failed to launch: nice -n 0 /usr/local/apps/spark-2.3.2-bin-hadoop2.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077
192.168.153.129: full log in 
 /usr/local/apps/spark-2.3.2-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-slave1.out

啟動spark-shell

spark-shell --master spark://master:7077 --total-executor-cores 2 --executor-memory 513m

啟動日誌如下：

18/10/03 10:30:30 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://master:4040
Spark context available as 'sc' (master = spark://master:7077, app id = app-20181003103051-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.2
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.

獲取SparkContext

scala> sc
res0: org.apache.spark.SparkContext = [email protected]

讀取本地檔案：

scala> val file = sc.textFile("licenses")
scala> file.count

wordcount程式碼如下：

scala> sc.textFile("licenses").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

結果如下：

res2: Array[(String, Int)] = Array(("",1995), (the,366), (OR,303), (#,279), (OF,262), (of,214), (THE,204), (and,180), (to,160), (ANY,136), (in,130), (IN,121), (this,113), (AND,110), (or,104), (following,85), (FOR,82), (conditions,76), (without,74), (copyright,71), (*,69), (NOT,66), (above,61), (BUT,60), (LIMITED,57), (LIABILITY,,56), (is,54), (SOFTWARE,54), (provided,53), (with,53), (COPYRIGHT,50), (source,50), (THIS,49), (binary,49), (are,48), (IMPLIED,47), (Redistributions,46), (be,46), (list,46), (must,46), (notice,,46), (software,45), (TO,,45), (Copyright,44), (NO,44), (CONTRIBUTORS,43), ((c),43), (any,42), (that,42), (DAMAGES,41), (USE,40), (SHALL,40), (LIABLE,40), (BE,40), (rights,40), (WARRANTIES,39), (FITNESS,38), (PSF,38), (A,38), (and/or,38), (PARTICULAR,38), (documentation,38...

讀取hdfs的檔案並儲存結果到hdfs中：

scala> sc.textFile("hdfs://master:9000/wc/wc.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://master:9000/wc/out1")

檢視輸出結果：

[[email protected] apps]# hadoop fs -ls /wc/out1
Found 3 items
-rw-r--r--   3 root supergroup          0 2018-10-03 17:27 /wc/out1/_SUCCESS
-rw-r--r--   3 root supergroup         76 2018-10-03 17:27 /wc/out1/part-00000
-rw-r--r--   3 root supergroup        417 2018-10-03 17:27 /wc/out1/part-00001

檢視檔案內容：

[[email protected] apps]# hadoop fs -cat /wc/out/part-*

結果略去。。。

將輸出的結果儲存到一個檔案裡面：

scala> sc.textFile("hdfs://master:9000/wc/wc.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://master:9000/wc/out2")

檢視結果如下：

[[email protected] apps]# hadoop fs -ls /wc/out2
Found 2 items
-rw-r--r--   3 root supergroup          0 2018-10-03 17:31 /wc/out2/_SUCCESS
-rw-r--r--   3 root supergroup        493 2018-10-03 17:31 /wc/out2/part-00000

分析運算元：
分類

Transform（轉換）
Action （動作）

案例：呼叫 sc.textFile(“hdfs://master:9000/wc/wc.txt”) 產生了一個rdd，這裡rdd沒有資料，textFile是一個transform，並非一個動作，並不會執行真正的計算。

scala> val file = sc.textFile("hdfs://master:9000/wc/wc.txt")
file: org.apache.spark.rdd.RDD[String] = hdfs://master:9000/wc/wc.txt MapPartitionsRDD[57] at textFile at <console>:24

動作執行：

scala> sc.textFile("hdfs://master:9000/wc/wc.txt").flatMap(_.split(" ")).map((_,1)).collect
res8: Array[(String, Int)] = Array((Apache,1), (Spark,1), (is,1), (a,1), (fast,1), (and,1), (general-purpose,1), (cluster,1), (computing,1), (system.,1), (It,1), (provides,1), (high-level,1), (APIs,1), (in,1), (Java,,1), (Scala,,1), (Python,1), (and,1), (R,,1), (and,1), (an,1), (optimized,1), (engine,1), (that,1), (supports,1), (general,1), (execution,1), (graphs.,1), (It,1), (also,1), (supports,1), (a,1), (rich,1), (set,1), (of,1), (higher-level,1), (tools,1), (including,1), (Spark,1), (SQL,1), (for,1), (SQL,1), (and,1), (structured,1), (data,1), (processing,,1), (MLlib,1), (for,1), (machine,1), (learning,,1), (GraphX,1), (for,1), (graph,1), (processing,,1), (and,1), (Spark,1), (Streaming.,1))

常用運算元介紹：

通過並行化的方式建立RDD

scala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[62] at parallelize at <console>:24

檢視該rdd的分取數量：

scala> rdd1.partitions.length
res10: Int = 2

將每個元素乘以10

scala> val rdd2 = rdd1.map(_*10).collect
rdd2: Array[Int] = Array(10, 20, 30, 40, 50, 60, 70, 80)

將rdd2裡面小於50的元素取出來

scala> rdd1.map(_*10).filter(_ < 50).collect
res16: Array[Int] = Array(10, 20, 30, 40)

spark入門二（運算元介紹核wordcount入門）

[[email protected] ~]# cd /usr/local/apps/spark-2.3.2-bin-hadoop2.7/ [[email protected] spark-2.3.2-bin-hadoop2.7]# ./sb

Spark入門3（累加器和廣播變量）

不同默認 drive 定義函數 kryo 序列化任務啟動一、概要　　通常情況下，當向Spark操作傳遞一個函數時，它會在一個遠程集群節點上執行，它會使用函數中所有變量的副本。這些變量被復制到所有的機器上，遠程機器上並沒有被更新的變量會向驅動程序回傳。在任務之間使

docker集群（二）--portainer+TLS安全連接docker主機（詳細介紹與使用心得）

chm log usr tls term 參考正常 pac 文件中 http://blog.51cto.com/mysky0708/2298049承接上文，在生產中如何安全的鏈接docker主機呢？我們采用TLS秘鑰方式。步驟：第一部分：首先在docker主機上生成秘鑰，

Spark-MLlib的快速使用之二（樸素貝葉斯分類）

（1）演算法描述演算法介紹：樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。樸素貝葉斯的思想基礎是這樣的：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，在沒有其它可用資訊下，我們會選擇條件概率最大的類別作為此待分類項應屬的類別。（2）測試資料 1

深度學習 --- 優化入門二（SGD、動量(Momentum)、AdaGrad、RMSProp、Adam詳解）

另在一篇文章中，我們介紹了隨機梯度下降的細節以及如何解決陷入區域性最小值或鞍點等問題。在這篇文章中，我們看看另一個困擾神經網路訓練的問題，即病態曲率。雖然區域性最小值和鞍點可以阻止我們的訓練，但是病態曲率可以使訓練減慢到機器學習從業者可能認為搜尋已經收斂到次優極小值的程度。讓我們深入瞭解病

Redis從入門到高可用，分散式實踐二（高階資料結構和持久化）

慢查詢 pipeline 釋出訂閱 bitmap（點陣圖） string型別，最大512mb 注意setbit偏移量，可能有較大耗時點陣圖要合理使用

Axis2/C入門教程之二（服務端實現詳細分析）

本文承接Axis2/C入門教程之一，詳細分析服務端程式碼hello_svc.c的實現。hello_svc.c程式碼如下：#include <axis2_svc_skeleton.h> #include <axutil_log_default.h> #i

二：Redis入門步驟（五大資料型別常用操作）

1. 開啟一個 cmd 視窗使用cd命令切換目錄到 C:\redis 執行 redis-server.exe redis.windows.conf 2.啟動： $ redis-server 3.檢視是否啟動： $ redis-cli 4.測試速度 redis-b

《javascript設計模式》讀書筆記二（封裝和隱藏信息）

mil del ims 是你信息私有屬性 bsp delet urn 1.為什麽要封裝和信息隱藏做過編程的朋友們知道“耦合”這個詞。事實上封裝的效果就是為了解耦，讓類和類之間沒有太多的聯系，防止某一天改動某一類的時候，產生“多米骨諾牌效應”。我們能夠把信息隱

劉強1109 JavaScript基礎二（分支與循環結構）

div tin 執行 javascrip 一次循環 document 嵌套if .cn 中一【if-else結構】 1、結構的寫法： 1 if(判斷條件){ 2 條件為true時，執行if{} 3 } else{ 4 條件為false時，執行else{} 5 } 2

15. Password auditing （密碼審核 12個）

協議 direct dir windows 最有 2009年靜態 cvs 兼容 Aircrack是一套用於802.11a / b / g WEP和WPA破解的工具。一旦收集到足夠的加密數據包，它就會實現最有效的破解算法來恢復無線密鑰。。該套件包括十多個分離工具，包括a

Linux管理員入門講解（與Win系統的區別）

linux 管理員入今天帶大家一起學習Linux，以後有空的話就一天一更，接下來都是講Linux系統的操作。大家都知道Win是一款以圖形為基礎的操作系統，其實更專業點的說，Win適合做客戶端，而Linux系統適合做服務器。那Linux系統你進入就是一臺黑白電視機，沒錯！就是黑

python基礎二（基礎數據類型）

6.2 say date 根據 mat 步長順序全國次數一，引子。 1 什麽是數據？　　x=10，10是我們要存儲的數據 2 為何數據要分不同的類型　　數據是用來表示狀態的，不同的狀態就應該用不同的類型的數據去表示 3 數據類型　　數字　　

20165230 《Java程序設計》實驗二（Java開發環境的熟悉）實驗報告

and 指導老師復數 charat() soft 單元測試撰寫 pro 20165230 《Java程序設計》實驗二（Java開發環境的熟悉）實驗報告一、實驗報告封面課程：Java程序設計班級：1652班姓名：田坤燁學號：20165230 成績：指導教師：

Django開發之路二（django的models表查詢）

django nds 有一個 clas span pytho mod 返回 length django的models表查詢　　一、單表查詢（1） all(): 查詢所有結果 # 返回的QuerySet類型（2） f

MapReduce 程式執行演示（示例PI程式 wordcount程式）

你說的9000埠應該指的是fs.default.name或fs.defaultFS（新版本）這一配置屬性吧，這個屬性是描述叢集中NameNode結點的URI(包括協議、主機名稱、埠號) 50070其實是在hdfs-site.xml裡面的配置引數dfs.namenode.http-address，

（沒有介紹標準演算法的）RMQ問題

感謝杜哥程式碼滋磁 RMQ (Range Minimum/Maximum Query)問題是指：對於長度為n的數列A，回答若干詢問RMQ(A,i,j)(i,j<=n)，返回數列A中下標在i,j裡的最小(大）值，也就是說，RMQ問題是指求區間最值的問題。主要方法及複雜度如下： 1、樸素（

Postman 安裝及使用入門教程（我主要使用介面測試）

1、Postman 安裝及使用入門教程（我主要使用介面測試）Postman的English官網：https://www.getpostman.com/chrome外掛整理的Postman中文使用教程（請仔細閱讀，然後你會發現一些基本的使用概念和規則，建議安裝客戶端）:http://chromecj.com/w

Hibernate Validator 6.0.7.Final 之二（詳解Validator和ConstraintViolation）

Validator介面在bean的校驗中扮演非常重要的角色。本文將詳細講解該介面。獲取該介面的方法 ValidatorFactory factory = Validation.buildDefaultValidatorFactory(); validator =

如何入門java（附帶新手推薦學習資料）

本人自學Java基礎已經有一個多月了，這一個月來走過了很多彎路。在裡面兜兜轉轉，曾經也想過是否要放棄對這門語言的學習，懷疑過自己是否不適合當一個程式設計師。從無知迷茫到懊惱憤恨，最近才發現是我個人意識出現了問題：因為我沒能讓自己愛上這門語言，所以我才會走那麼多彎路。不要怕

spark入門二（運算元介紹核wordcount入門）

常用運算元介紹：

相關推薦