在Spark Shell中編寫WordCount程式

阿新 • • 發佈：2018-11-10

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式

1.啟動Spark Shell

bin/spark-shell

上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模式執行的，是模擬了spark叢集執行的過程

bin/spark-shell --master spark://cdh0:7077,cdh1:7077

上邊是指定了Master地址的啟動方式，會將任務提交到叢集，這時候使用jps檢視，可以看到機器上的SparkSubmit和CoarseGrainedExecutorBackend程序都已經存在了，SparkSubmit會連線Master，並申請計算資源，然後Master進行資源排程(讓Worker來啟動Executor)

2.向hdfs中上傳一個用來測試的資料檔案

例如： test.txt

hdfs yarn
hadoop hdfs
yarn mapreduce
hadoop yarn
hdfs mapreduce

然後上傳到hdfs中

3.在Spark Shell中編寫WordCount程式

在Spark Shell中使用Scala編寫Spark程式

sc.textFile("hdfs://cdh0:8020/usr/ys/input/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://cdh0:8020/usr/output")

引數說明：

sc是SparkContext物件，該物件是提交spark程式的入口

textFile("hdfs://cdh0:8020/usr/ys/input/test.txt")是向hdfs中讀取資料

flatMap(_.split(" "))是先map後進行扁平化操作

map((_,1))是將單詞和1構成元組

reduceByKey(_+_)是按照key進行reduce，並將value累加

saveAsTextFile("hdfs://cdh0:8020/usr/output2")是儲存到hdfs的目錄中

4.在hdfs中檢視結果

bin/hdfs dfs -cat /usr/output/*

在Spark Shell中編寫WordCount程式

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式 1.啟動Spark Shell bin/spark-shell 上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模

spark shell中編寫WordCount程式

啟動hdfs 略啟動spark 略準備資料 vi wordcount.txt hello zeng hello miao hello gen hello zeng hello wen

在IDEA中使用Scala語言編寫WordCount程式

1.使用IDEA建立Maven專案 2.匯入pom.xml檔案 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compil

解決SecureCRT下spark-shell中scala無法刪除問題

們的知識庫 crt 解決方法 sdn html ace track 點擊轉自：http://blog.csdn.net/huanbia/article/details/51318278 問題描述當使用SecureCRT來打開Spark-shell的時候，有時

在Pycharm上編寫WordCount程式

本篇部落格將給大家介紹怎麼在PyCharm上編寫執行WordCount程式。第一步下載安裝PyCharm 下載Pycharm PyCharm的下載地址（Linux版本）。下載完成後你將得到一個名叫：pycharm-professional-2018.2.4.tar.gz檔案。我們選擇的是正版軟體，學

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

NoiLinux中編寫cpp程式出現段錯誤的解決方案分析

NOIP資訊學奧賽複賽中全員需要使用noilinux來編寫程式，大佬們教我們用vim,然後vim編寫程式時不能逐步除錯，只能斷言輸出（可能是井底之蛙沒發現），而且在出現段錯誤的時候，只會華麗麗的出來如下類似語句：　　　　　/bin/bash:行 1 ：286

python中編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑—— python學習筆記

1. 題目：編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑。 2. 解答 import os # 引入os "編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑" def se

shell指令碼編寫小程式

求1-100的加法，並輸出1+2+3+4+5+6+7+…+100? #!/bin/bash sum=1 str='1' i=2 for (( i; i<=100; i++)) do

spark-shell中往mysql數據庫寫數據報錯

數據 jdb nec tco spark localhost conn task ror 今天在看spark方面的知識的時候，在spark-shell中往mysql寫數據時報錯，錯誤信息如下： ERROR Executor: Exception in task 0.0 in

spark快速入門與WordCount程式機制深度解析 spark研習第二季

2、spark wordCount程式深度剖析標籤： spark 一、Eclipse(scala IDE)開發local和cluster （一）. 配置開發環境要在本地安裝好java和scala。由於spark1.6需要scala 2.10.X版本的。推薦 2

在IDEA中編寫Spark的WordCount程式（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Art

大資料篇：Spark-shell的測試及Scala獨立應用程式的編寫與sbt打包

一、在 Spark Shell 中執行程式碼 Spark shell 提供了簡單的方式來學習 API，並且提供了互動的方式來分析資料。你可以輸入一條語句，Spark shell會立即執行語句並返回結果，這就是我們所說的REPL（Read-Eval-Print Loop，互動式直譯器

在eclipse中編寫Hadoop的WordCount程式，並在eclipse中執行

基於Windows7 + jdk1.8.0_162 + eclipse4.7.2 + Hadoop2.7.7 一、安裝eclipse（自行百度）二、安裝jdk（自行百度）三、下載maven倉庫並在eclipse中配置maven環境（後面的文章講）四、在eclipse中新建一個maven

大話Spark(3)-一圖深入理解WordCount程式在Spark中的執行過程

本文以WordCount為例, 畫圖說明spark程式的執行過程 WordCount就是統計一段資料中每個單詞出現的次數, 例如hello spark hello you 這段文字中hello出現2次, spark出現1次, you出現1次. 先上完整程式碼: object WordCount {

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式，spark-shell是Spark自帶的互動式Shel

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

記錄python呼叫matlab編寫的程式中的問題

我是要給matlab程式，利用python 的 tkinter 包做一個介面化。遇到的問題： 1，matlab 報錯：引用了已清除的變數 address 程式段： function y = Test(address) clc clear ... address1 = address %read

shell中spark-sql語句除錯、執行方式

1.命令方式執行sparksql查詢 SQL="use mydatatable;;select count(1) from tab_videousr_onlne where p_regiion=101 and p_date='2017-04-05' and p_hour=21;" /home

在Spark Shell中編寫WordCount程式

相關推薦