1. 程式人生 > >Scala IDE for Eclipse的下載、安裝和WordCount的初步使用(本地模式和叢集模式)

Scala IDE for Eclipse的下載、安裝和WordCount的初步使用(本地模式和叢集模式)

   不多說,直接上乾貨!

這篇部落格是, 

  是在Scala IDEA for Eclipse裡maven建立scala和java程式碼編寫環境。

本博文包括:

   Scala IDE for Eclipse的下載

   Scala IDE for Eclipse的安裝

   本地模式或叢集模式

  我們知道,對於開發而言,IDE是有很多個選擇的版本。如我們大部分人經常用的是如下。

   而我們知道,對於spark的scala開發啊,有為其專門設計的eclipse,Scala IDE for Eclipse。

  

1、Scala IDE for Eclipse的下載

 2、Scala IDE for Eclipse的安裝

進行解壓

  3、Scala IDE for Eclipse的WordCount的初步使用

 在這之前,先在本地裡安裝好java和scala

  因為,我這篇部落格,是面向基礎的博友而分享的。所以,在此,是在Scala IDE for Eclipse裡,手動新建scala專案。

注意:推薦使用IDEA , 當然有人肯定還依依不捨Scala IDE for Eclipse。

則,如下是我寫的另一篇部落格

預設竟然變成了scala 2.11.8去了

這一定要換!

         Scala2.11.8(預設的版本)   -------->      scala2.10.4(我們的版本)

第一步:修改依賴的scala版本,從scala2.11.*,至scala2.10.*。

 

 

這裡是相容版本,沒問題。Scala2.10.6和我們的scala2.10.4沒關係!!!

第二步:加入spark的jar檔案依賴

我這裡,以spark-1.5.2-bin-hadoop2.6.tgz為例,其他版本都是類似的,很簡單!

第三步:找到spark依賴的jar檔案,並匯入到Scala IDE for Eclipse的jar依賴中

 

新增Spark的jar依賴spark-1.5.2-bin-hadoop2.6.tgz裡的lib目錄下的spark-assembly-1.5.2-hadoop2.6.0.jar

第四步:在src下,建立spark工程包

 

第五步:建立scala入口類

定義main方法

第六步:把class變成object,並編寫main入口方法。

 

本地模式

第1步

第2步

第3步

 

 第4步

 第5步

第6步

叢集模式

  這裡,學會巧,複製貼上,WordCount.scala 為 WordCount_Clutser.scala。

 

 

 

現在呢,來從Linux裡,拷貝檔案到hadoop叢集裡

即,將

     /usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md   到  / 或  hdfs://SparkSingleNode:9000

[email protected]:/usr/local/hadoop/hadoop-2.6.0$ pwd
/usr/local/hadoop/hadoop-2.6.0
[email protected]:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -copyFromLocal /usr/local/spark/spark-1.5.2-bin-hadoop2.6/README.md  hdfs://SparkSingleNode:9000/
[email protected]:/usr/local/hadoop/hadoop-2.6.0$ bin/hadoop fs -ls /
Found 2 items
-rw-r--r-- 1 spark supergroup 3593 2016-09-18 10:15 /README.md
drwx-wx-wx - spark supergroup 0 2016-09-09 16:28 /tmp
[email protected]:/usr/local/hadoop/hadoop-2.6.0$

 

// val lines:RDD[String] = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是檔案路徑,minPartitions指的是最小並行度
// val lines = sc.textFile("D://SoftWare//spark-1.6.2-bin-hadoop2.6//README.md", 1)//path指的是檔案路徑,minPartitions指的是最小並行度
// val lines = sc.textFile("hdfs://SparkSingleNode:9000/README.md", 1)//沒必要會感知上下文
// val lines = sc.textFile("/README.md", 1)//path指的是檔案路徑,minPartitions指的是最小並行度
val lines = sc.textFile("/README.md")//為什麼,這裡不寫並行度了呢?因為,hdfs會有一個預設的

如,我們的這裡/裡,有188個檔案,每個檔案小於128M。

所以,會有128個小集合。

當然,若是大於的話,我們可以人為干預,如3等

做好程式修改之後,

我這裡啊,遇到如上的錯誤。

http://blog.csdn.net/weipanp/article/details/42713121 

(3)Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V

at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method)

修復方法:在hadoop2.6原始碼裡找到NativeCrc32.java,建立與原始碼一樣的包名,拷貝NativeCrc32.java到該包工程目錄下。

 

hadoop-2.6.0-src/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/util/NativeCrc32.java

 

以及,缺少hadoop.dll,注意是64位的。放到hadoop-2.6.0下的bin目錄下

 玩玩spark-1.5.2-bin-hadoop2.6.tgz

 繼續,,,出現了一些問題!

其實啊,在叢集裡,模板就是如下

val file = spark.textFile("hdfs://...”)

val counts = file.flatMap("line => line.spilt(" "))

        .map(word => (word,1))

        .reduceByKey(_+_)

 counts.saveAsTextFile("hdfs://...”)

歡迎大家,加入我的微信公眾號:大資料躺過的坑     免費給分享

同時,大家可以關注我的個人部落格

   http://www.cnblogs.com/zlslch/   和  http://www.cnblogs.com/lchzls/ 

  人生苦短,我願分享。本公眾號將秉持活到老學到老學習無休止的交流分享開源精神,匯聚於網際網路和個人學習工作的精華乾貨知識,一切來於網際網路,反饋回網際網路。
  目前研究領域:大資料、機器學習、深度學習、人工智慧、資料探勘、資料分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時還涉及平常所使用的手機、電腦和網際網路上的使用技巧、問題和實用軟體。 只要你一直關注和呆在群裡,每天必須有收穫

       以及對應本平臺的QQ群:161156071(大資料躺過的坑)

 

 

相關推薦

Scala IDE for Eclipse下載安裝WordCount初步使用本地模式叢集模式

   不多說,直接上乾貨! 這篇部落格是,    是在Scala IDEA for Eclipse裡maven建立scala和java程式碼編寫環境。 本博文包括:    Scala IDE for Eclipse的下載    Scala IDE for

CentOS6.5下如何正確下載安裝Intellij IDEAScalaScala-intellij-bin插件Scala IDE for Eclipse助推大數據開發圖文詳解

scala 建議 strong 安裝jdk rgs 默認 tell launcher eclipse 第二步:安裝Intellij IDEA   若是3節點如,master、slave1、slave2,則建議將其安裝在master節點上   到https:/

Navicat for MySQL下載安裝與破解

for 完成後 失效 exe 進入 .html 關閉 百度 logs 參考來源:https://www.cnblogs.com/da19951208/p/6403607.html 一:下載Navicat for MySQL   進入 Navicat for MySQL

IAR for STM8下載安裝註冊

原文:https://blog.csdn.net/ybhuangfugui/article/details/52936636   一、下載 官方下載,網址https://www.iar.com/iar-embedded-workbench/#!?currentTab=free-

Scala從零開始:使用Scala IDE for eclipse寫hello world

雖然Scala是一門比較新的語言,但是很多機構都為其開發了IDE或者整合外掛,比較流行的有Eclipse、IntelliJ以及Netbeans。今天我們使用集成了Scala IDE外掛的Eclipse進行程式碼的編寫。 IDE下載及安裝 大資料學習的順序: (1)大資料的第一代技術

eclipse下載安裝,配置教程多圖

第一步:下載eclipse,並安裝。 下載連結:http://www.eclipse.org/downloads/ 點選 Download Packages; 根據自己的系統選擇32位還是64位的,點選相應連結下載(可能會彈出一個需要你付費的頁面,並不是eclipse需要付費,這只是請求你捐錢的,無需理

Mysql5.7及以上版本的MySQL下載安裝及配置教程附圖

打開 water windows 輸入 ont src nbsp iter 電腦 對版本的說明 之所以說是MySQL5.7及以上版本,是因為從MySQL5.7版本之後,其安全機制有所改變。在安裝完成後,登陸MySQL時,需要輸入一個密碼,這個密碼其實是在配置MySQL

用maven來創建scalajava項目代碼環境圖文詳解Intellij IDEAUltimate版本Intellij IDEACommunity版本Scala IDEA for Eclipse皆適用博主推薦

搭建 ava XML .com 自動 ado ima 強烈 mapred 為什麽要寫這篇博客?   首先,對於spark項目,強烈建議搭建,用Intellij IDEA(Ultimate版本),如果你還有另所愛好嘗試Scala IDEA for Eclipse,有時間自己去

spark最新原始碼下載並匯入到開發環境下助推高質量程式碼(Scala IDEA for EclipseIntelliJ IDEA皆適用以spark2.2.0原始碼包為例圖文詳解

  不多說,直接上乾貨! 前言     其實啊,無論你是初學者還是具備了有一定spark程式設計經驗,都需要對spark原始碼足夠重視起來。   本人,肺腑之己見,想要成為大資料的大牛和頂尖專家,多結合原始碼和操練程式設計。   好一段時間之前,寫過這篇部落格

用maven來建立scalajava專案程式碼環境圖文詳解Intellij IDEAUltimate版本Intellij IDEACommunity版本Scala IDEA for Eclipse皆適用博主推薦

  不多說,直接上乾貨! 為什麼要寫這篇部落格?   首先,對於spark專案,強烈建議搭建,用Intellij IDEA(Ultimate版本),如果你還有另所愛好嘗試Scala IDEA for Eclipse,有時間自己去玩玩。但最好追隨大流。   對於hadoop專案,強烈建議用

Navicat for MySQL之MySQL客戶端的下載安裝使用

  前期工作   若需使用Navicat for MySQL,則需要先安裝MySQL,在此就不敘述了。具體可見我的部落格:   Navicat for MySQL的下載  參考:    1、進入官網 https://www.navicat.com/   2、https://w

eclipseeclipse 4.9 下載安裝漢化

目錄 一、eclipse下載 二、eclipse安裝 (1)解壓下載後的安裝包: (2)自定義工作目錄workspace: (3)已安裝成功,退出eclipse程式: (4)再次開啟程式: 三、eclipse線上漢

轉載【項目管理構建】——Maven下載安裝配置

文檔 port 目標 軟件項目管理 strong mar temp mave work 原文鏈接: http://blog.csdn.net/jiuqiyuliang/article/details/41076215 在現實

kettle的下載安裝初步使用windows平臺下圖文詳解

1.0 index java_home 網站 int 目錄 解決辦法 for sql kettle的下載   ?Kettle可以在http://kettle.pentaho.org/網站下載 http:

20180602_Maven下載安裝配置

分享圖片 指定 選擇 maven安裝 官網 AC maven下載 環境變量 解壓 Maven下載、安裝和配置 Maven下載 進入Maven官網,找到 選擇apache-maven-3.5.3-bin.zip 下載: Maven安裝和配置 解壓壓縮包

MySQL Server類型的MySQL 客戶端的下載安裝使用

mysql 雙擊 下載 lin 時間 linu ont ML 一段時間 mysql server 5.5的下載 下載地址: https://dev.mysql.com/downloads/mysql/5.0.html#linux mysql server 5.5的安裝

JDK - 官網下載安裝環境配置

選擇 oracle https bsp 點擊 xxx image 輸入 clas JDK - 官網下載、安裝和環境配置 一.JDK官網下載和安裝 1.先百度 ,進入Oracle官網(https://www.oracle.com/index.html); 2.下拉 ,點

Windows平臺上下載安裝測試nodejs

Node是一個伺服器端 JavaScript 直譯器,它可以幫助程式設計師構建高度可伸縮的應用程式,編寫能夠處理數萬條同時連線到一個(只有一個)物理機的連線程式碼。下面就來介紹如何在Windows平臺上下載、安裝nodejs。 一、下載nodejs檔案  1.  2.進入

官網下載安裝Eclipse,並避免Failed to load the JNI shared library 錯誤

首先,64位JDK,要安裝64為Eclipse,32位的同理。否則會出現JDK和Eclipse版本不相容,報:Failed to load the JNI shared library 錯誤 1、開啟官網地址http://www.eclipse.org/,點選Download 由於網站

MongoDB服務端與客戶端下載安裝配置教程

MongoDB版本 3.6.3 MongoDB社群版 1.0  robomongo 下載 官網下載請點選這裡,百度雲下載請點選這裡,提取碼:6av6 安裝 MongoDB的安裝非常簡單,除了安裝路徑可以自己選擇之外,其它的步驟一直點下