本篇文章主要整理了筆者學習大資料時整理的一些文章,文章是從環境搭建到整個大資料生態圈的常用技術整理,環境希望可以幫助到剛學習大資料到童鞋,大家在學習過程中有問題可以隨時評論回覆!

大資料生態圈涉及技術:

Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper

大資料生態圈技術圖:

 

一、大資料入門環境搭建整理(叢集、環境配置)

1、安裝VMware及新建虛擬機器

2、虛擬機器VMware中安裝linux系統CentOS

3、CentOS7設定靜態IP以及windows下ping不通虛擬機器、虛擬機器ping不通外網解決方案

4、Linux中安裝配置jdk1.7

5、Linux(CentOS7)設定主機名及IP對映(用於hadoop單機/偽分散式/分散式/叢集配置)

6、Winodws下使用VMware克隆、移出、快照Linux系統

7、Linux下yum方式安裝mysql 以及解除安裝mysql

8、linux(Centons7)下重置root密碼超詳細步驟

9、linux下配置ssh免密(用於Hadoop高可用叢集)

10、Linux系統xshell安裝上傳下載檔案命令rz sz

11、Linux下zookeeper單機、偽分散式、分散式環境搭建(本篇主要介紹分散式用於Hadoop高可用叢集)

二、大資料入門系列教程合集(生態圈技術安裝配置使用)

【Hadoop篇】

1、大資料入門教程系列之Hadoop環境搭建--Hadoop單機/偽分散式搭建配置

2、基於centons7安裝配置apache hadoop(mac)

3、大資料入門教程系列之Hadoop環境搭建--Hadoop叢集/分散式搭建配置

4、大資料入門教程系列之Hadoop環境搭建--Hadoop高可用叢集搭建配置

5、大資料入門教程系列之Hadoop環境搭建--新建Hadoop使用者

6、大資料入門教程系列之HDFS分散式檔案系統--idea下使用java API操作HDFS分散式檔案系統

7、大資料入門教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例

8、大資料入門教程系列之HDFS分散式檔案系統--shell命令操作HDFS分散式檔案系統

 

【Hive篇】

1、大資料入門教程系列之Hive環境搭建--Linux(Centons7)下配置安裝Hive

2、大資料入門教程系列之Hive的Java API 操作

3、大資料入門教程系列之Hive內建函式及自定義函式

4、Hive DDL DML及SQL操作

5、Hadoop2.7.4 編譯 支援5種壓縮

【Hbase篇】

1、大資料入門教程系列之Hbase安裝(偽分散式)

【Flume篇】

1、Centons7下安裝配置Flume、Linux下安裝配置Flume、Flume的簡單使用示例、Flume整合Kafka使用

【Kafka篇】

1、Centons7下安裝配置Kafka、Linux下安裝配置Kafka

【Spark篇】

1、hadoop叢集下spark環境配置並且完成wordcount案例

2、Spark中RDD的Value型Transformation運算元操作(一)

3、Spark中RDD的Key-Value型Transformation運算元操作(二)

4、Spark中Actionn運算元操作(三)

 

三、大資料生態圈技術整理彙總(技術架構、原理、流程)

1、Hive概述、體系架構、分割槽、桶與傾斜、環境搭建

2、Hbase架構及工作原理、資料及物理模型、Hbase優化

3、Hbase常用優化、Hbae效能優化、Hbase優化經驗總結

4、Flume架構、Flume工作原理、Flume應用場景

5、Kafka架構、Kafka核心元件、Kafka工作原理、Kafka應用場景

6、在idea下使用java將Log4j日誌實時寫入Kafka(Kafka實時日誌寫入)

7、Spark基本架構及原理

 

四、大資料常見錯誤合集(環境搭建和實際專案操作)

1、windows下執行mapreduce報錯Could not locate executable null bin winutils.exe in the Hadoop binaries 解決方案

2、windows下執行mapreduce報錯The auxService mapreduce_shuffle do 解決方案

3、Hadoop HA 高可用叢集啟動報錯 Encountered exception loading fsimage 解決方案

4、Hadoop HA 高可用叢集格式化NameNode後啟動沒有DataNode

5、Hive啟動hiveserver2報錯:Could not open client transport with JDBC Uri解決方案

6、Hive2.x版本建立表報錯:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

7、使用hive的beeline連線報錯hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解決方案

8、Hbase錯誤總結:Hbase未正常關閉啟動報錯

9、Hbase錯誤總結:Hbase連線不上Zookeeper

10、kafka啟動報錯is empty Please build the project first e.g. by running gradlew jar

 

五、大資料的離線和實時資料處理流程分析

1、

2、