Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

阿新 • • 發佈：2019-01-13

　　不多說，直接上乾貨！

這篇部落格是，

　　是在Scala IDEA for Eclipse裡maven建立scala和java程式碼編寫環境。

本博文包括：

　　Scala IDE for Eclipse的下載

　　 Scala IDE for Eclipse的安裝

　　本地模式或叢集模式

　　我們知道，對於開發而言，IDE是有很多個選擇的版本。如我們大部分人經常用的是如下。

　　而我們知道，對於spark的scala開發啊，有為其專門設計的eclipse，Scala IDE for Eclipse。

1、Scala IDE for Eclipse的下載

2、Scala IDE for Eclipse的安裝

進行解壓

3、Scala IDE for Eclipse的WordCount的初步使用

在這之前，先在本地裡安裝好java和scala

　　因為，我這篇部落格，是面向基礎的博友而分享的。所以，在此，是在Scala IDE for Eclipse裡，手動新建scala專案。

注意：推薦使用IDEA ，當然有人肯定還依依不捨Scala IDE for Eclipse。

則，如下是我寫的另一篇部落格

預設竟然變成了scala 2.11.8去了

這一定要換！

Scala2.11.8（預設的版本） --------> scala2.10.4（我們的版本）

第一步：修改依賴的scala版本，從scala2.11.*，至scala2.10.*。

這裡是相容版本，沒問題。Scala2.10.6和我們的scala2.10.4沒關係！！！

第二步：加入spark的jar檔案依賴

我這裡，以spark-1.5.2-bin-hadoop2.6.tgz為例，其他版本都是類似的，很簡單！

第三步：找到spark依賴的jar檔案，並匯入到Scala IDE for Eclipse的jar依賴中

新增Spark的jar依賴spark-1.5.2-bin-hadoop2.6.tgz裡的lib目錄下的spark-assembly-1.5.2-hadoop2.6.0.jar

第四步：在src下，建立spark工程包

第五步：建立scala入口類

定義main方法

第六步:把class變成object，並編寫main入口方法。

本地模式

第1步

第2步

第3步

第4步

第5步

第6步

叢集模式

　　這裡，學會巧，複製貼上，WordCount.scala 為 WordCount_Clutser.scala。

現在呢，來從Linux裡，拷貝檔案到hadoop叢集裡

即，將

/usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md 到 / 或 hdfs://SparkSingleNode:9000

[email protected]:/usr/local/hadoop/hadoop-2.6.0$ pwd
/usr/local/hadoop/hadoop-2.6.0
[email protected]:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -copyFromLocal /usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md hdfs://SparkSingleNode:9000/
[email protected]:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -ls /
Found 2 items
-rw-r--r-- 1 spark supergroup 3593 2016-09-18 10:15 /README.md
drwx-wx-wx - spark supergroup 0 2016-09-09 16:28 /tmp
[email protected]:/usr/local/hadoop/hadoop-2.6.0$

// val lines:RDD[String] = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是檔案路徑，minPartitions指的是最小並行度
// val lines = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是檔案路徑，minPartitions指的是最小並行度
// val lines = sc.textFile("hdfs://SparkSingleNode:9000/README.md", 1)//沒必要會感知上下文
// val lines = sc.textFile("/README.md", 1)//path指的是檔案路徑，minPartitions指的是最小並行度
val lines = sc.textFile("/README.md")//為什麼，這裡不寫並行度了呢？因為,hdfs會有一個預設的

如，我們的這裡/裡，有188個檔案，每個檔案小於128M。

所以，會有128個小集合。

當然，若是大於的話，我們可以人為干預，如3等

做好程式修改之後，

我這裡啊，遇到如上的錯誤。

http://blog.csdn.net/weipanp/article/details/42713121

(3)Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V

at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method)

修復方法：在hadoop2.6原始碼裡找到NativeCrc32.java，建立與原始碼一樣的包名，拷貝NativeCrc32.java到該包工程目錄下。

hadoop-2.6.0-src/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/util/NativeCrc32.java

以及，缺少hadoop.dll，注意是64位的。放到hadoop-2.6.0下的bin目錄下

玩玩spark-1.5.2-bin-hadoop2.6.tgz

繼續，，，出現了一些問題！

其實啊，在叢集裡，模板就是如下

val file = spark.textFile("hdfs://...”)

val counts = file.flatMap("line => line.spilt(" "))

　　　　　　　　.map(word => (word,1))

　　　　　　　　.reduceByKey(_+_)

　counts.saveAsTextFile("hdfs://...”)

歡迎大家，加入我的微信公眾號：大資料躺過的坑免費給分享

同時，大家可以關注我的個人部落格：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/

　　人生苦短，我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神，匯聚於網際網路和個人學習工作的精華乾貨知識，一切來於網際網路，反饋回網際網路。
　　目前研究領域：大資料、機器學習、深度學習、人工智慧、資料探勘、資料分析。語言涉及：Java、Scala、Python、Shell、Linux等。同時還涉及平常所使用的手機、電腦和網際網路上的使用技巧、問題和實用軟體。只要你一直關注和呆在群裡，每天必須有收穫

以及對應本平臺的QQ群：161156071（大資料躺過的坑）

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

CentOS6.5下如何正確下載、安裝Intellij IDEA、Scala、Scala-intellij-bin插件、Scala IDE for Eclipse助推大數據開發（圖文詳解）

Navicat for MySQL下載、安裝與破解

IAR for STM8下載、安裝、註冊

Scala從零開始：使用Scala IDE for eclipse寫hello world

eclipse下載，安裝，配置教程（多圖）

Mysql5.7及以上版本的MySQL下載、安裝及配置教程（附圖）

用maven來創建scala和java項目代碼環境（圖文詳解）（Intellij IDEA（Ultimate版本）、Intellij IDEA（Community版本）和Scala IDEA for Eclipse皆適用）（博主推薦）

spark最新原始碼下載並匯入到開發環境下助推高質量程式碼(Scala IDEA for Eclipse和IntelliJ IDEA皆適用）（以spark2.2.0原始碼包為例）（圖文詳解）

用maven來建立scala和java專案程式碼環境（圖文詳解）（Intellij IDEA（Ultimate版本）、Intellij IDEA（Community版本）和Scala IDEA for Eclipse皆適用）（博主推薦）

Navicat for MySQL之MySQL客戶端的下載、安裝和使用

【eclipse】eclipse 4.9 下載、安裝和漢化

（轉載）【項目管理和構建】——Maven下載、安裝和配置（一）

kettle的下載、安裝和初步使用（windows平臺下）（圖文詳解）

20180602_Maven下載、安裝和配置

MySQL Server類型的MySQL 客戶端的下載、安裝和使用

JDK - 官網下載、安裝和環境配置

Windows平臺上下載、安裝和測試nodejs

官網下載、安裝Eclipse，並避免Failed to load the JNI shared library 錯誤

MongoDB服務端與客戶端下載、安裝和配置教程

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用（本地模式和叢集模式）

相關推薦