Spark 大資料中文分詞統計 (一) 開發環境搭建
幾年前搞BI專案時就聽說過大資料技術,當時也買了書,可惜沒有認真去學。幾年5月份
開始,報名參加王家林老師的大資料蘑菇雲行動,才算真正開始學習Spark,學習大資料技術。
網上很多Spark的例子都是經典的WordCount example,可惜都是拿那個英文的readme
檔案,分行分詞統計,對於中文其實並不適用。所以便想著寫一個能處理中文的WordCount,
對一些國學經典如唐詩三百首,宋詞三百首等等,統計分析下,也算學以致用。經過半月努力,
總算基本實現了功能:
在此總結下,希望能和學習大資料或Spark的各位同學分享。
第一步當然是安裝JDK 1.6以上版本,並設定JAVA_HOME環境變數。
因為Scala語言和Java語言都是基於JVM同根所生,而且Spark可以使用Java語言或Scala語言
開發,所以安裝JDK是必須的。如下是我本地的安裝及設定:
第二步安裝Scala語言包及設定SCALA_HOME環境變數:
去Scala官網:http://www.scala-lang.org/ 下載安裝相應的Scala語言版本。以下是我本地的安裝及設定:
第三步下載安裝Apache Spark的安裝包並設定相應的環境變數:
下載後解壓安裝,並設定環境變數。我本地的設定如下:
啟動Spark Shell,會顯示Spark的版本是1.6.0.
第四步,下載安裝hadoop的安裝編譯包,需要注意32位和64位的差別已經hadoop的版本。
的安裝包,其他版本請上網搜下。我本地的設定如下:
Spark的開發環境,可以有以下三種選擇:
1. Scala-IDE 網址為 http://scala-ide.org/ 這是基於Scala官方基於Eclipse預裝了Scala語
言各種元件的開發環境,下載後解壓就可以直接使用來開發Scala專案,加入Spark的Library,
就可以開發Spark應用了。
Scala IDE開啟後的介面如下:
可以選擇Scala專案,加入Scala class或trait進行Scala語言的開發。
當然Scala IDE還是可以開發Java應用的,因為本來Scala和Java就是基於JVM同根所生,並且可以相互呼叫的。
開發Java應用,選擇New 彈出選單最下面的Other:
這裡,就可以選擇建立其他型別的Java專案了。
我們下載community 免費版就可以了。
據說Intellij IDEA是開發Java語言以及Scala語言最好的IDE,介面相當professional and cool:
下拉Configure,選擇Pugins:
可以給Intellij IDEA安裝各種開發外掛,也包括Scala語言開發的外掛:
因為我已經安裝過Scala語言包了,所以這裡顯示Uninstall,否則應該顯示安裝連結,直接點選就可以線上安裝。安裝完畢後,關閉視窗返回。
然後選擇Create New Project:
可以看到,有Java Project,Scala Project甚至於Android 等等其他型別Project可供選擇。
當然,要能建立其他型別 Project,必須先安裝其必須的外掛。
3. 第三種開發環境的選擇是Eclipse + Scala外掛,
自己下載Eclipse,解壓開啟後,在Help選單中選擇Install New Software,安裝對應Eclipse版本的Scala開發外掛:
安裝完畢後,重新進入Eclipse,就可以選擇建立Scala Project,進行Scala語言的開發了:
這裡有一點要注意,就是必須用新的從Eclipse官網下載到的Eclipse版本,才能連線到Scala 官網去安裝Scala外掛。
如果使用其他的定製過的Eclipse,例如Android Studio的Eclipse,是無法安裝Scala外掛的。
以上三種開發IDE的選擇,第一種最為簡單,所以我選擇了第一種。
到這裡,Windows 7下的Spark開發環境的搭建,就算完成了。
下一篇,我會先用Java開發Spark中文分詞統計程式。