1. 程式人生 > >Spark 大資料中文分詞統計 (一) 開發環境搭建

Spark 大資料中文分詞統計 (一) 開發環境搭建

          幾年前搞BI專案時就聽說過大資料技術,當時也買了書,可惜沒有認真去學。幾年5月份

開始,報名參加王家林老師的大資料蘑菇雲行動,才算真正開始學習Spark,學習大資料技術。

          網上很多Spark的例子都是經典的WordCount example,可惜都是拿那個英文的readme

檔案,分行分詞統計,對於中文其實並不適用。所以便想著寫一個能處理中文的WordCount,

對一些國學經典如唐詩三百首,宋詞三百首等等,統計分析下,也算學以致用。經過半月努力,

總算基本實現了功能:

       

          在此總結下,希望能和學習大資料或Spark的各位同學分享。

          第一步當然是安裝JDK 1.6以上版本,並設定JAVA_HOME環境變數。

因為Scala語言和Java語言都是基於JVM同根所生,而且Spark可以使用Java語言或Scala語言

開發,所以安裝JDK是必須的。如下是我本地的安裝及設定:

          第二步安裝Scala語言包及設定SCALA_HOME環境變數:

          去Scala官網:http://www.scala-lang.org/ 下載安裝相應的Scala語言版本。以下是我本地的安裝及設定:

          第三步下載安裝Apache Spark的安裝包並設定相應的環境變數:

下載後解壓安裝,並設定環境變數。我本地的設定如下:

         啟動Spark Shell,會顯示Spark的版本是1.6.0.

         第四步,下載安裝hadoop的安裝編譯包,需要注意32位和64位的差別已經hadoop的版本。

的安裝包,其他版本請上網搜下。我本地的設定如下:


          Spark的開發環境,可以有以下三種選擇:

          1. Scala-IDE 網址為 http://scala-ide.org/  這是基於Scala官方基於Eclipse預裝了Scala語

言各種元件的開發環境,下載後解壓就可以直接使用來開發Scala專案,加入Spark的Library,

就可以開發Spark應用了。

           Scala IDE開啟後的介面如下:

            可以選擇Scala專案,加入Scala class或trait進行Scala語言的開發。

            當然Scala IDE還是可以開發Java應用的,因為本來Scala和Java就是基於JVM同根所生,並且可以相互呼叫的。

            開發Java應用,選擇New 彈出選單最下面的Other:

           

           這裡,就可以選擇建立其他型別的Java專案了。

           我們下載community 免費版就可以了。

           據說Intellij IDEA是開發Java語言以及Scala語言最好的IDE,介面相當professional and cool:

           下拉Configure,選擇Pugins:

           可以給Intellij IDEA安裝各種開發外掛,也包括Scala語言開發的外掛:

           因為我已經安裝過Scala語言包了,所以這裡顯示Uninstall,否則應該顯示安裝連結,直接點選就可以線上安裝。安裝完畢後,關閉視窗返回。

           然後選擇Create New Project:

         可以看到,有Java Project,Scala Project甚至於Android 等等其他型別Project可供選擇。

         當然,要能建立其他型別 Project,必須先安裝其必須的外掛。

        3. 第三種開發環境的選擇是Eclipse + Scala外掛,

        自己下載Eclipse,解壓開啟後,在Help選單中選擇Install New Software,安裝對應Eclipse版本的Scala開發外掛:

        安裝完畢後,重新進入Eclipse,就可以選擇建立Scala Project,進行Scala語言的開發了:

       這裡有一點要注意,就是必須用新的從Eclipse官網下載到的Eclipse版本,才能連線到Scala 官網去安裝Scala外掛。

如果使用其他的定製過的Eclipse,例如Android Studio的Eclipse,是無法安裝Scala外掛的。

       以上三種開發IDE的選擇,第一種最為簡單,所以我選擇了第一種。

       到這裡,Windows 7下的Spark開發環境的搭建,就算完成了。

       下一篇,我會先用Java開發Spark中文分詞統計程式。