1. 程式人生 > >【備忘】Hadoop實戰(第2版 PDF 下載

【備忘】Hadoop實戰(第2版 PDF 下載

內容簡介
     本書能滿足讀者全面學習最新的Hadoop技術及其相關技術(Hive、HBase等)的需求,是一本系統且極具實踐指導意義的Hadoop工具書和參考書。第1版上市後廣受好評,被譽為學習Hadoop技術的經典著作之一。與第1版相比,第2版技術更新穎,所有技術都針對最新版進行了更新;內容更全面,幾乎每一個章節都增加了新內容,而且增加了新的章節;實戰性更強,案例更豐富;細節更完美,對第1版中存在的缺陷和不足進行了修正。
本書內容全面,對Hadoop整個技術體系進行了全面的講解,不僅包括HDFS、MapReduce、YARN等核心內容,而且還包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等與Hadoop技術相關的重要內容。實戰性強,不僅為各個知識點精心設計了大量經典的小案例,而且還包括Yahoo!等多個大公司的企業級案例,可操作系極強。

全書一共19章:第1~2章首先對Hadoop進行了全方位的巨集觀介紹,然後介紹了Hadoop在三大主流作業系統平臺上的安裝與配置方法;第3~6章分別詳細講解了MapReduce計算模型、MapReduce的工作機制、MapReduce應用的開發方法,以及多個精巧的MapReduce應用案例;第7章全面講解了Hadoop的I/O操作;第8章對YARN進行了介紹;第9章對HDFS進行了詳細講解和分析;第10章細緻地講解了Hadoop的管理;第11~17章對Hadoop大生態系統中的Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等技術進行了詳細的講解;第18章講解了Hadoop的各種常用外掛,以及Hadoop外掛的開發方法;第19章分析了Hadoop在Yahoo!、eBay、百度、Facebook等企業中的應用案例。


目錄
前 言
第1章 Hadoop簡介/1
1.1 什麼是Hadoop/2
1.1.1 Hadoop概述/2
1.1.2 Hadoop的歷史/2
1.1.3 Hadoop的功能與作用/2
1.1.4 Hadoop的優勢/3
1.1.5 Hadoop應用現狀和發展趨勢/3
1.2 Hadoop專案及其結構/3
1.3 Hadoop體系結構/6
1.4 Hadoop與分散式開發/7
1.5 Hadoop計算模型—MapReduce/10
1.6 Hadoop資料管理/10
1.6.1 HDFS的資料管理/10
1.6.2 HBase的資料管理/12
1.6.3 Hive的資料管理/13
1.7 Hadoop叢集安全策略/15
1.8 本章小結/17
第2章 Hadoop的安裝與配置/19

2.1 在Linux上安裝與配置Hadoop/20
2.1.1 安裝JDK 1.6/20
2.1.2 配置SSH免密碼登入/21
2.1.3 安裝並執行Hadoop/22
2.2 在Mac OSX上安裝與配置Hadoop/24
2.2.1 安裝Homebrew/24
2.2.2 使用Homebrew安裝Hadoop/25
2.2.3 配置SSH和使用Hadoop/25
2.3 在Windows上安裝與配置Hadoop/25
2.3.1 安裝JDK 1.6或更高版本/25
2.3.2 安裝Cygwin/25
2.3.3 配置環境變數/26
2.3.4 安裝sshd服務/26
2.3.5 啟動sshd服務/26
2.3.6 配置SSH免密碼登入/26
2.3.7 安裝並執行Hadoop/26
2.4 安裝和配置Hadoop叢集/27
2.4.1 網路拓撲/27
2.4.2 定義叢集拓撲/27
2.4.3 建立和安裝Cluster /28
2.5 日誌分析及幾個小技巧/34
2.6 本章小結/35
第3章 MapReduce計算模型/36
3.1 為什麼要用MapReduce/37
3.2 MapReduce計算模型/38
3.2.1 MapReduce Job/38
3.2.2 Hadoop中的Hello World程式/38
3.2.3 MapReduce的資料流和控制流/46
3.3 MapReduce任務的優化/47
3.4 Hadoop流/49
3.4.1 Hadoop流的工作原理/50
3.4.2 Hadoop流的命令/51
3.4.3 兩個例子/52
3.5 Hadoop Pipes/54
3.6 本章小結/56
第4章 開發MapReduce應用程式/57
4.1 系統引數的配置/58
4.2 配置開發環境/60
4.3 編寫MapReduce程式/60
4.3.1 Map處理/60
4.3.2 Reduce處理/61
4.4 本地測試/62
4.5 執行MapReduce程式/62
4.5.1 打包/64
4.5.2 在本地模式下執行/64
4.5.3 在叢集上執行/64
4.6 網路使用者介面/65
4.6.1 JobTracker頁面/65
4.6.2 工作頁面/65
4.6.3 返回結果/66
4.6.4 任務頁面/67
4.6.5 任務細節頁面/67
4.7 效能調優/68
4.7.1 輸入採用大檔案/68
4.7.2 壓縮檔案/68
4.7.3 過濾資料/69
4.7.4 修改作業屬性/71
4.8 MapReduce工作流/72
4.8.1 複雜的Map和Reduce函式/72
4.8.2 MapReduce Job中全域性共享資料/74
4.8.3 連結MapReduce Job/75
4.9 本章小結/77
第5章 MapReduce應用案例/79
5.1 單詞計數/80
5.1.1 例項描述/80
5.1.2 設計思路/80
5.1.3 程式程式碼/81
5.1.4 程式碼解讀/82
5.1.5 程式執行/83
5.1.6 程式碼結果/83
5.1.7 程式碼資料流/84
5.2 資料去重/85
5.2.1 例項描述/85
5.2.2 設計思路/86
5.2.3 程式程式碼/86
5.3 排序/87
5.3.1 例項描述/87
5.3.2 設計思路/88
5.3.3 程式程式碼/89
5.4 單表關聯/91
5.4.1 例項描述/91
5.4.2 設計思路/92
5.4.3 程式程式碼/92
5.5 多表關聯/95
5.5.1 例項描述/95
5.5.2 設計思路/96
5.5.3 程式程式碼/96
5.6 本章小結/98
第6章 MapReduce工作機制/99
6.1 MapReduce作業的執行流程/100
6.1.1 MapReduce任務執行總流程/100
6.1.2 提交作業/101
6.1.3 初始化作業/103
6.1.4 分配任務/104
6.1.5 執行任務/106
6.1.6 更新任務執行進度和狀態/107
6.1.7 完成作業/108
6.2 錯誤處理機制 /108
6.2.1 硬體故障/109
6.2.2 任務失敗/109
6.3 作業排程機制/110
6.4 Shuffle和排序/111
6.4.1 Map端/111
6.4.2 Reduce端/113

6.4.3 shuffle