hadoop學習線路圖,參考
轉載自:https://blog.csdn.net/zhoudaxia/article/details/8801769
按照這個路線圖來學習即可。
1、M. Tim Jones的三篇文章:
用Hadoop進行分散式資料處理第1部分(入門):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/index.html
用Hadoop進行分散式資料處理第2部分(進階):http://www.ibm.com/developerworks/cn/linux/l-hadoop-2/index.html
用Hadoop進行分散式資料處理第3部分(應用程式開發):http://www.ibm.com/developerworks/cn/linux/l-hadoop-3/index.html
2、“銀河裡的星星”的部落格,其中的Google論文系列(就包括開創性論文“MapReduce:簡化大叢集上的資料處理”)、搜尋與分散式方面的介紹
[google論文三]MapReduce簡化大叢集上的資料處理:http://duanple.blog.163.com/blog/static/709717672010923203501/
詞頻統計的Map/Reduce程式可以從這裡找到:http://blog.csdn.net/shijinupc/article/details/7522446
Google論文系列:http://duanple.blog.163.com/blog/#m=0&t=3&c=google
按照Hadoop各元件來串聯:http://duanple.blog.163.com/blog/static/7097176720119791920962/
3、IBM developerWorks上的其他Hadoop文章,在dw上用Hadoop關鍵字進行搜尋,可以找到大量Hadoop的文章
下面一些需要看:
Hadoop Distributed File System簡介:http://www.ibm.com/developerworks/cn/web/wa-introhdfs/index.html
使用Apache Pig處理資料:http://www.ibm.com/developerworks/cn/bigdata/basic.html
4、《開源軟體架構》中的介紹
(卷1第8章)HDFS--Hadoop分散式檔案系統:http://www.ituring.com.cn/article/4299
英文原文:http://www.aosabook.org/en/index.html (其中的卷1第8章)
5、阿里集團資料平臺的官方部落格,包含大量Hadoop研究和應用經驗
http://www.alidata.org/archives
6、百度搜索研發部的官方部落格,主要包含分散式系統(Hadoop)、搜尋技術、資料探勘、大型網站架構等方面的經驗
http://baidu-tech.com/
7、董的部落格,關於Hadoop、分散式系統的研究
http://dongxicheng.org/recommend/
8、官方文件當然更不能少了,主要包括Hadoop叢集的搭建,MapReduce的使用,HDFS架構方面的介紹
優先看穩定版:http://hadoop.apache.org/docs/stable/
最新版(包括下一代MapReduce即YARN的介紹):http://hadoop.apache.org/docs/current/
9、caibinbupt的部落格,Hadoop原始碼分析系列
http://caibinbupt.iteye.com/?page=6
千與的專欄,Hadoop-0.20.0原始碼分析
http://blog.csdn.net/shirdrn/article/category/595039/3
10、spork的部落格,其中關於Hadoop的系列
http://www.cnblogs.com/spork/category/226077.html
11、chinacloud的部落格,其中的Hadoop架構、分散式系統設計方面的一些經驗
http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html
12、beanmoon的部落格,其中的Hadoop系列
http://www.cnblogs.com/beanmoon/
---------------------
作者:Dave888Zhou
來源:CSDN
原文:https://blog.csdn.net/zhoudaxia/article/details/8801769