大資料入門環境搭建整理、大資料入門系列教程合集、大資料生態圈技術整理彙總、大資料常見錯誤合集、大資料的離線和實時資料處理流程分析
本篇文章主要整理了筆者學習大資料時整理的一些文章,文章是從環境搭建到整個大資料生態圈的常用技術整理,環境希望可以幫助到剛學習大資料到童鞋,大家在學習過程中有問題可以隨時評論回覆!
大資料生態圈涉及技術:
Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper
大資料生態圈技術圖:
一、大資料入門環境搭建整理(叢集、環境配置)
3、CentOS7設定靜態IP以及windows下ping不通虛擬機器、虛擬機器ping不通外網解決方案
5、Linux(CentOS7)設定主機名及IP對映(用於hadoop單機/偽分散式/分散式/叢集配置)
6、Winodws下使用VMware克隆、移出、快照Linux系統
7、Linux下yum方式安裝mysql 以及解除安裝mysql
8、linux(Centons7)下重置root密碼超詳細步驟
9、linux下配置ssh免密(用於Hadoop高可用叢集)
10、Linux系統xshell安裝上傳下載檔案命令rz sz
11、Linux下zookeeper單機、偽分散式、分散式環境搭建(本篇主要介紹分散式用於Hadoop高可用叢集)
二、大資料入門系列教程合集(生態圈技術安裝配置使用)
【Hadoop篇】
1、大資料入門教程系列之Hadoop環境搭建--Hadoop單機/偽分散式搭建配置
2、基於centons7安裝配置apache hadoop(mac)
3、大資料入門教程系列之Hadoop環境搭建--Hadoop叢集/分散式搭建配置
4、大資料入門教程系列之Hadoop環境搭建--Hadoop高可用叢集搭建配置
5、大資料入門教程系列之Hadoop環境搭建--新建Hadoop使用者
6、大資料入門教程系列之HDFS分散式檔案系統--idea下使用java API操作HDFS分散式檔案系統
7、
8、大資料入門教程系列之HDFS分散式檔案系統--shell命令操作HDFS分散式檔案系統
【Hive篇】
1、大資料入門教程系列之Hive環境搭建--Linux(Centons7)下配置安裝Hive
【Hbase篇】
【Flume篇】
1、Centons7下安裝配置Flume、Linux下安裝配置Flume、Flume的簡單使用示例、Flume整合Kafka使用
【Kafka篇】
1、Centons7下安裝配置Kafka、Linux下安裝配置Kafka
【Spark篇】
1、hadoop叢集下spark環境配置並且完成wordcount案例
2、Spark中RDD的Value型Transformation運算元操作(一)
3、Spark中RDD的Key-Value型Transformation運算元操作(二)
三、大資料生態圈技術整理彙總(技術架構、原理、流程)
2、Hbase架構及工作原理、資料及物理模型、Hbase優化
3、Hbase常用優化、Hbae效能優化、Hbase優化經驗總結
5、Kafka架構、Kafka核心元件、Kafka工作原理、Kafka應用場景
6、在idea下使用java將Log4j日誌實時寫入Kafka(Kafka實時日誌寫入)
四、大資料常見錯誤合集(環境搭建和實際專案操作)
1、windows下執行mapreduce報錯Could not locate executable null bin winutils.exe in the Hadoop binaries 解決方案
2、windows下執行mapreduce報錯The auxService mapreduce_shuffle do 解決方案
3、Hadoop HA 高可用叢集啟動報錯 Encountered exception loading fsimage 解決方案
4、Hadoop HA 高可用叢集格式化NameNode後啟動沒有DataNode
5、Hive啟動hiveserver2報錯:Could not open client transport with JDBC Uri解決方案
6、Hive2.x版本建立表報錯:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
7、使用hive的beeline連線報錯hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解決方案
9、Hbase錯誤總結:Hbase連線不上Zookeeper
10、kafka啟動報錯is empty Please build the project first e.g. by running gradlew jar
五、大資料的離線和實時資料處理流程分析
1、
2、