1. 程式人生 > >大資料環境操作筆記

大資料環境操作筆記

  不久將要參加個什麼大資料比賽。 於是將相關的內容練習了幾遍。 其中各自的關鍵及相關的理解均寫成了筆記,分別是zookeeper分散式叢集環境的搭建hadoop叢集環境的搭建分散式非關係型資料庫hbase環境搭建基於hive的資料倉庫的構建   以及於此同時回顧的計算機網路的相關知識。  短期來看,似乎有點浪費時間,做了一些無用功。 無論參加比賽獲獎與否。 但是長期來看,還是很有益處的,不說大資料這種對普通開發人員不著調的話題,單單是計算機網路的相關理論知識,足夠抵過很多的所謂實踐了。   不管怎樣,既然做了,那就儘量做好吧,希望能夠做到問心無愧就好。     因此還是決定將知識總體拉通在複習一遍,並且將資料倉庫中的資料分析部分給補上(筆記已經整理在電腦中,為防止誤刪資料,還是滕到部落格上比較好!  上次清理桌面莫名其妙將自己數個月起早貪黑整理的筆記,以及整理的英語筆記都給弄丟了。  還好其中重要的都給寫到了部落格裡,丟失了部分勞動成果,馬勒戈壁的)。 

   先看看各個元件的啟動方式,以及啟動成功後,各自啟動了哪些程序:(這實際上是最容易理解的,比很多的理論知識要來的直接的多):

   當在叢集環境下,這些程序都啟動正常的話,那麼基本可以判定這個叢集是正確可用的了。  

 接著是hive的相關操作:

1.建立資料庫:

  

 

2.建立資料表

  Or

  

  語法規則:

   注意為了正確的裝載,需要將爬取到的內容中的   ,(逗號)以及 \n(換行符號轉義)

 

 

修改mysql 的預設編碼:

修改配置,使得centos支援顯示中文:

  

若沒有,則要下載:

   

  注意,以上的所有設定對centos的預設字元介面是不會生效的,只能用外接的命令列。。。

 

 

將需要檢索的結果進行分表:

統計:

  繼續統計:

  轉換率計算:

 針對競賽的解決方案:(統計總帖子數)

  2,統計總使用者數: