《Hadoop 權威指南 - 大資料的儲存與分析》學習筆記

阿新 • • 發佈：2018-10-31

第一章初識Hadoop

1.2 資料的儲存與分析

對多個硬碟中的資料並行進行讀/寫資料，有以下兩個重要問題：

硬體故障問題。解決方案：複製（replication）,系統儲存資料的副本（replica）。
以某種方式結合大部分資料來共同完成分析。MapReduce 提出一個程式設計模型，該模型抽象出這些硬體讀/寫問題，並且將其轉換成對一個數據集（由鍵-值對組成）的計算。
簡而言之，Hadoop 為我們提供了一個儲存和分析平臺。

1.5 關係型資料庫和Hadoop 的區別

它們所操作的資料集的結構化程度。Hadoop 對非結構化（unstructured data）和半結構化（semi-structured data）資料非常有效。Web 伺服器日誌就是典型的非規範化的資料記錄，這就是Hadoop 非常適合於分析各種日誌的原因。

第二章關於MapReduce

2.3 使用Hadoop 來分析資料

MapReduce 任務分為兩個處理階段。每個階段都是以鍵值對作為輸入輸出。對程式設計師來說，需要寫兩個函式：map 函式和 reduce 函式。好友一個MaperReduce 作業。
Java MapReduce:
Mapper 函式：

public class MaxTemperatureMapper extends Mapper {

private static final int MISSING = 9999;

@Override
protected void map(Object key, Object value, Context context) throws IOException, InterruptedException {
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') {
        airTemperature = Integer.parseInt(line.substring(88, 92));
    }else {
        airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
        context.write(new Text(year), new IntWritable(airTemperature));
    };
}

}

Reduce 函式：

import java.io.IOException;

public class MaxTemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int maxValue = Integer.MIN_VALUE;
        for (IntWritable value : values) {
            maxValue = Math.max(maxValue, value.get());
        }
        context.write(key, new IntWritable(maxValue));
    }
}


public class MaxTemperatureDemo {
    public static void main(String[] args) throws Exception {
        Job job = new Job();
        job.setJarByClass(MaxTemperatureDemo.class);
        job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
}
}

LongWritable — Long, Text – -String, IntWritable — Integer
job 作業日誌關鍵字： job_local26392882
mapper 任務 task 日誌關鍵字： attempt_local26392882_001_m_0000_0
reduce 任務task 日誌關鍵字： attempt_local26392882_001_r_0000_0

2.4 橫向擴充套件

作業（job）: 客戶端需要執行的一個工作單元。包括輸入資料，MapReduce 程式和配置資訊。
Hadoop 將作業分成若干個任務（task）。任務包括兩類：map(任務)，reduce(任務)。
任務執行在叢集的節點上，由YARN 進行排程。

《Hadoop 權威指南 - 大資料的儲存與分析》學習筆記

第一章初識Hadoop 1.2 資料的儲存與分析對多個硬碟中的資料並行進行讀/寫資料，有以下兩個重要問題：硬體故障問題。解決方案：複製（replication）,系統儲存資料的副本（replica）。以某種方式結合大部分資料來共同完成分析。MapReduce

Hadoop權威指南-大資料的儲存與分析第四版——學習筆記——第2章——1

MapReduce 適合處理半結構化的資料 MapReduce任務階段 Map階段+Reduce階段 Key-Value作為輸入輸出實現兩個函式：map(),reduce() Map階段輸入的Key：文字中的偏移量輸入的value：文字輸出的k-v給reduce處

《Hadoop權威指南大資料的儲存與分析第版修訂版升級版》pdf附網盤下載連結+（附一個菜鳥的java學習之路）

技術書閱讀方法論一.速讀一遍（最好在1~2天內完成）人的大腦記憶力有限，在一天內快速看完一本書會在大腦裡留下深刻印象，對於之後複習以及總結都會有特別好的作用。對於每一章的知識，先閱讀標題，弄懂大概講的是什麼主題，再去快速看一遍，不懂也沒有關係，但是一定要在不懂的

Hadoop權威指南---MapReduce的型別與格式

目錄 package org.apache.hadoop.mapreduce; import java.io.IOException; import org.apache.hadoop.c

【Hadoop & Hbase】大資料儲存系統程式設計_讀出寫入

0x01 編譯環境 jdk 1.7 hbase 0.98 hadoop 2.6 Ubuntu Linux 14.04.2 0x02 目標其中我的任務編號為5，即Sort-based Distinct Sort-based Distinct

hadoop SequenceFile介紹大資料儲存

SequenceFile是一個由二進位制序列化過的key/value的位元組流組成的文字儲存檔案。基於壓縮型別CompressType，共有三種SequenceFileWriter： 1 2 3 4 5 6 7 8 public static enum Co

BigData NoSQL —— ApsaraDB HBase資料儲存與分析平臺概覽

摘要：資料庫發展有三個明顯的趨勢：1. 越來越多的資料庫會做雲原生(CloudNative)；2. NoSQL正在解決

資料結構與演算法學習筆記之複雜度分析

前言：　大家都知道資料結構和英語，就如同程式設計師的兩條腿一樣；只有不斷的積累，學習，擁有了健壯的“雙腿”才能越走越遠；在資料結構和演算法的領域，不得不承認自己就是一隻菜鳥；需要不斷的學習；在學習過程中，經常會有一些自己的看法，和別人獨特的見解；我都會一一做好筆記，以便進步；正文：複雜度分析

資料結構與演算法學習筆記之如何分析一個排序演算法？

前言現在IT這塊找工作，不會幾個演算法都不好意思出門，排序演算法恰巧是其中最簡單的，我接觸的第一個演算法就是它，但是你知道怎麼分析一個排序演算法麼？有很多時間複雜度相同的排序演算法，在實際編碼中，那又如何選擇呢？下面我們帶著問題一起學習一下。正文一、常見經典的排序方法（圖片來自於一畫素）

資料結構與演算法學習筆記一：複雜度分析

一、為什麼要進行復雜度分析資料結構是用來解決“快”和“省”的問題，也就是如何是程式碼執行更快以及如何節省更多的空間。因此執行效率在演算法中就是一個非常重要的考核指標。時間、空間複雜度分析就是用來衡量一個演算法程式碼的執行效率的指標。複雜度分析在資料結構和演算法中佔

java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式

> 目前[CSDN](https://blog.csdn.net/weixin_42208775),[部落格園](https://home.cnblogs.com/u/gitBook/),[簡書](https://www.jianshu.com/u/da41700fde04)同步發表中,更多精彩歡迎訪問

java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式

> 目前[CSDN](https://blog.csdn.net/weixin_42208775),[部落格園](https://home.cnblogs.com/u/gitBook/),[簡書](https://www.jianshu.com/u/da41700fde04)同步發表中,更多精彩歡迎訪問

JavaScript權威指南（第6版）學習筆記一

未定義顯示註釋星期語句布爾運算垃圾 class ron 第2章詞法結構一、字符集 *JavaScript程序是用Unicode字符集編寫的。 *JavaScript嚴格區分大小寫。 *JavaScript註釋：（1）“//”用於單行註釋；（2）"/*

JavaScript權威指南（第6版）學習筆記三

設置 ray 每一個 main 需求創建 per ive customer 第六章對象對象可以看成其屬性的無序集合，每個屬性都是一個名/值對。JavaScript對象是動態的，可以新增也可以刪除屬性，可以通過引用而非值來操作對象。如果變量x是指向一個對象的引用，那麽執行

資料結構與演算法學習筆記之後進先出的“桶”

前言棧最為一種的常用的資料結構，用“桶”來形容最合適不過；今天我們就來學習一下正文一、棧的定義？ 1.“後進先出，先進後出”的資料結構。 2.從操作特性來看，是一種“操作受限”的線性表，只可以在一端插入和刪除資料。二、為什麼需要棧？

《Oracle大資料解決方案》學習筆記5——Oracle大資料機的配置、部署架構和監控-1（BDA Config, Deployment Arch, and Monitoring）

這章的內容很多，有的學了。 1. Oracle大資料機——靈活和可擴充套件的架構 2. Hadoop叢集的基本配置 3. Oracle大資料機的硬體配置 4. Oracle大資料機X3-2滿

《Oracle大資料解決方案》學習筆記4——選擇Appliance的理由（Why an Appliance?）

雖然這章的內容有點像Oracled的市場宣傳資料，但也因此學習了一些大資料相關硬體的知識。 1. Oracle大資料機（Big Data Appliance）X3-2硬體規格（全機架配置，18個節點） 2. Oracle大資料機全機架配置環境規格 3. Orac

#資料結構與演算法學習筆記#劍指Offer29：整數中1出現的次數 + 分段思想/按位考慮 + 測試用例（Java、C/C++）

2018.10.5 感受到開學之後工作和課業的雙重壓力，加上近段時間自己出了點小事故，因此斷更了許久。沒事，繼續。這道題有兩種複雜度為的演算法。方法1：遞迴（分段思想）。所有數字出現1的個數 = 每一段數字中出現1的個數之和 1. 對於輸出的數字n，其最高位為

資料結構與演算法學習筆記 1 （2018.10.05）

演算法計算=資訊處理藉助某種工具，遵照一定規則，以明確而機械的形式進行計算模型=計算機=資訊處理工具所謂演算法，即特定計算模型下，旨在解決特定問題的指令序列輸入待處理的資訊（問題）輸

#資料結構與演算法學習筆記#劍指Offer30：把陣列排成最小的數 + 自定義比較器 + 測試用例（Java、C/C++）

2018.10.6 1.求全排列最小。事實上用全排列硬剛這道題確實是最直接的辦法，因為乍一眼看上去實在不好歸納數字之間的順序關係，全排列具體實現原理可以參考上述文章。 2.自定義比較器。為什麼說

《Hadoop 權威指南 - 大資料的儲存與分析》學習筆記

第一章 初識Hadoop

1.2 資料的儲存與分析

1.5 關係型資料庫和Hadoop 的區別

第二章 關於MapReduce

2.3 使用Hadoop 來分析資料

2.4 橫向擴充套件

相關推薦

第一章初識Hadoop

第二章關於MapReduce