Hadoop 2.X管理與開發（二、資料壓縮與優化）

阿新 • • 發佈：2018-12-19

#Hadoop資料壓縮

資料壓縮

1）MR操作過程中進行大量資料傳輸，就需要對資料進行壓縮
2）壓縮技術能夠有效減少底層儲存（HDFS）讀寫位元組數，提高的網路頻寬和磁碟空間的效率
3）資料壓縮能夠有效節省資源
4）壓縮事MR程式的優化策略
5）通過壓縮編碼對Mapper或者reduce資料傳輸進行的壓縮，以減少磁碟IO

壓縮的基本原則

1）運算密集型任務少用壓縮
2）IO密集型的任務，多用壓縮

MR支援的壓縮編碼

DEFAULT 是自帶編碼 .default 不可切分
Gzip 是自帶編碼 .gz 不可切分
bzip2 是自帶編碼 .bz2 可以切分

LZO 非自帶編碼 .lzo 可以切分
Snappy 非自帶編碼 .Snappy 不可切分

編碼/解碼器

DEFAULT org.apache.hadoop.io.compress.DefaultCodeC Gzip org.apache.hadoop.io.compress.GzipCodeC bzip2 org.apache.hadoop.io.compress.BZip2CodeC LZO com.hadoop.compression.lzo.lzoCodeC Snappy org.apache.hadoop.io.compress.SnappyCodeC

壓縮效能

Gzip 原大小：8.3GB 壓縮後：1.8GB 壓縮速度：17.5MB/s 解壓速度：58MB/s bzip2 原大小：8.3GB 壓縮後：1.1GB 壓縮速度：2.4MB/s 解壓速度：9.5MB/s LZO 原大小：8.3GB 壓縮後：2.9GB 壓縮速度：49.3MB/s 解壓速度：74.6MB/s

設定壓縮方式

mapper端：
    //開啟map端的輸出壓縮
		conf.setBoolean("mapreduce.map.outpot.compress", true);
		//設定壓縮方式
		//conf.setClass("mapreduce.map.outpot.compress.codec", DefaultCodec.class, CompressionCodec.class);
		conf.setClass("mapreduce.map.outpot.
        compress.codec", BZip2Codec.class, CompressionCodec.class);

reduce端：
    //開啟reduce端的輸出壓縮
		FileOutputFormat.setCompressOutput(job, true);
		//設定壓縮方式
		//FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class);
		FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);

Hadoop優化

MapReduce程式的效率瓶頸

優化方法

資料輸入

合併小檔案：在執行MR任務前就進行小檔案合併採用CombineTextInputFormat來作為輸入來作為輸入端大量小檔案的場景

Map階段

減少溢寫次數（增加記憶體200MB 80%）：減少磁碟I/O

mapred-default.xml:

<property>
	<name>mapreduce.task.io.sort.mb</name>
	<value>200</value>
</property>

<property>
	<name>mapreduce.map.sort.spill.percent</name>
	<value>0.80</value>
</property>

減少合併的次數

mapred-default.xml:
<property>
	<name>mapreduce.task.io.sort.factor</name>
	<value>10</value> //檔案的個數，數值越大合併次數越少
</property>

在map之後，不影響業務邏輯的情況下可以使用combiner

Reduce階段

合理的設定map與reduce的個數設定map/reduce共存

mapred-default.xml:
<property>
	<name>mapreduce.job.reduce.skowstart.completedmaps</name>
	<value>0.05</value> //設定執行一定程度的map後，啟動reduce，減少等待時間
</property>

合理設定reduce的buffer

mapred-default.xml:
<property>
	<name>mapreduce.reduce.markreset.buffer.percent</name>
	<value>0.0</value> 
</property>

I/O傳輸

進行資料壓縮使用sequenceFile
資料傾斜

進行範圍分割槽自定義分割槽 Combine 能用mapJoin的堅決不用reduceJoin

引數調優

分配map程式CPU核心數

mapred-default.xml:
<property>
	<name>mapreduce.map.cpu.vcores</name>
	<value>1</value> //核心數
</property>

分配reduce程式CPU核心數

mapred-default.xml:
<property>
	<name>mapreduce.reduce.cpu.vcores</name>
	<value>1</value> //核心數
</property>

設定maptask記憶體

mapred-default.xml:
<property>
	<name>mapreduce.map.memory.mb</name>
	<value>1024</value> //一個maptask能夠使用的記憶體上限
</property>

設定reducetask記憶體

mapred-default.xml:
<property>
	<name>mapreduce.reduce.memory.mb</name>
	<value>1024</value> //一個maptask能夠使用的記憶體上限
</property>

reduce去map端並行度

mapred-default.xml:
<property>
	<name>mapreduce.reduce.shuffle.parallelcopies</name>
	<value>5</value> //當reduce去map端拿取資料時所開的並行數是5
</property>

Hadoop 2.X管理與開發（二、資料壓縮與優化）

#Hadoop資料壓縮資料壓縮 1）MR操作過程中進行大量資料傳輸，就需要對資料進行壓縮 2）壓縮技術能夠有效減少底層儲存（HDFS）讀寫位元組數，提高的網路頻寬和磁碟空間的效率 3）資料壓縮能夠有效節省資源 4）壓縮事MR程式的優化策略 5）通過壓縮編碼對

【轉載】Vue 2.x 實戰之後臺管理系統開發（二）

null element asc 其他就會 ans 目錄 asi all 2. 常見需求 01. 父子組件通信 a. 父 -> 子（父組件傳遞數據給子組件）使用 props，具體查看文檔 - 使用 Prop 傳遞數據（cn.vuejs.org/v2/guide

分散式設計與開發（二）------幾種必須瞭解的分散式演算法

分散式設計與開發中有些疑難問題必須藉助一些演算法才能解決，比如分散式環境一致性問題，感覺以下分散式演算法是必須瞭解的（隨著學習深入有待新增）： Paxos演算法一致性Hash演算法 Paxos演算法 1）問題描述分散式中有這麼一個疑難問題，客戶端向一個分散式叢集的服務

C# BS訊息推送 SignalR Hubs環境搭建與開發（二）

原文: C# BS訊息推送 SignalR Hubs環境搭建與開發（二） 1. 前言本文是根據網上前人的總結得出的。環境： SignalR2.x，VS2015，Win10 2. 開始開發 1）新建一個MVC專案，叫做SignalRDemo 2）安裝SignalR包

企業級Hadoop 2.x入門系列之十二入門視訊分享

網上流傳非常好的《Hadoop 2.x入門學習視訊》，在此將網盤下載地址分享給大家課程相關【軟體與工具】：連結：http://pan.baidu.com/s/1hqEGFQk 密碼：b4sh 第一次課程：連結：http://pan.baidu.com/

MMORGP大型遊戲設計與開發（客戶端架構 part16 of vegine）

由於近來比較忙碌和有些睏倦的原因，所以關於這部分的文章沒有及時更新，一句話：讓朋友們久等了！今天所講的是客戶端vengine（微引擎）中最後一個部分，就像上節所說，這一部分的內容比較多。可能有些朋友看了程式碼以及註釋後，仍有不少疑惑的地方，歡迎評論留言相互討論，如

Storm學習記錄（二、分發策略與架構）

一、分發策略 Shuffle Grouping：隨機分組，隨機派發stream裡面的tuple，保證每個bolt task接收到的tuple數目大致相同。輪詢，平均分配 Fields Grouping：按欄位分組，比如，按"user-id"這個欄位來分組，那麼具有同樣"u

微信公眾號開發（二、訊息推送）

微信公眾號的配置完了，訊息推送就比較簡單了。本節主要介紹一下推送的程式碼。一、首先需要在公眾號平臺中新建一個模板（用於推送訊息）。下面是測試和正式微信公眾號的模板。正式的模板可以設

Python學習：15.Python面向對象（二、繼承的各種情況）

所有自己的 eat split() 尋找路徑 ble 基於找到一、什麽是繼承繼承是一種創建類的方法，在python中，一個類可以繼承來自一個或多個父。原始類稱為基類或超類。 #創建父類 class Parent1: pass class

spring cloud （二、服務註冊安全demo_eureka）

spring cloud （一、服務註冊demo_eureka）加強服務的安全性，我們接下來加上訪問的賬號密碼；首先需要新增對應的依賴

python3 web框架之Django（二、關於web框架理解）

我們在瀏覽網站不同頁面的時候後面url也會變，不是我們這樣不管誰來訪問都是“ hello web” 那我們想要實現這樣的功能呢？看程式碼： from wsgiref.simple_server import make_server def handle_reque

STL深入探究（二、容器的底層實現）

1 前言上一篇 STL深入探究（一、空間配置器）我詳細總結了SGI STL採用的空間配置機制，這一篇來總結一下stl容器的底層實現機制。 2 序列式容器 2.1 Vector Vector實現方式類似於“陣列”，與array的資料安排和操作方式非常類似，兩者唯一的差

挖掘演算法中的資料結構（四）：堆排序之二叉堆（Heapify、原地堆排序優化）

不同於前面幾篇O(n^2)或O(n*logn)排序演算法，此篇文章將講解另一個排序演算法——堆排序，也是此係列的第一個資料結構—–堆，需要注意的是在堆結構中排序是次要的，重要的是堆結構及衍生出來的資料結構問題，排序只是堆應用之一。此篇涉及的知識點有：堆

Storm解讀之路（二、基本 Java-API 篇）

寫這些東西其實本質上是記錄因工作接觸 Storm 之後的學習進度，既然是工作，當然要敲程式碼，所以這一篇就分享下基本 Java-API 吧。首先看下面的圖（畫圖不行見諒），這是 Storm API 使用中最基本的介面和抽象類關係。 OK，這裡我們可以

JUC（二、執行緒間通訊）

兩個執行緒，一個執行緒列印1-52，另一個列印字母A-Z列印順序為12A34B...5152Z, 要求用執行緒間通訊 1.syn

Cocos2d-x 3.0 開發（十二）在CocoStudio中使用粒子掛載與曲線動畫

1、概述最新版本的CocoStudio在修復之前Bug的同時，加入了新功能，粒子掛載和曲線動畫就是其中的亮點。下面我們就動手做個例子，先上圖： 2、粒子掛載執行CocoStudio

C++ STL開發溫習與總結（二）： 2.C++儲存技術

C++ STL開發溫習與總結（二）：2.C++儲存技術使用了多年C++，沒有系統的溫習總結過，所以準備溫習《C++STL程式設計師開發指南》，本系列篇章將會是溫習總結該書本概念和技術。本節討論的C++儲存技術保局哦C++儲存型別，C++儲存

Vue 2.x 實戰之後臺管理系統開發（一）

1. 導語該文章將從頭到尾梳理我是如何使用 Vue 2 開發一個後臺管理專案的，我會將自己遇到的問題貼出，希望可以幫助到其他人。 2. 開發前須知我的後臺管理系統專案運用瞭如下框架/外掛： Vue 2.x —— 專案所使用的 js 框架

hadoop 2.X 二次開發搭建環境

1、本文件前面部分配置參照群主的(塵事隨緣) ,切記一切在linux下開發,想在win開發hadoop的就別往下看了.血淚史告訴你這簡直太難了! 下載所需資料:連結：http://pan.baidu.com/s/1eQJd7W2 密碼：ksjy 2、首先

Hadoop單點部署與案例開發（微博用戶數據分析）

環境搭建 hadoop 數據分析微博用戶一、環境搭建1、Hadoop運行環境搭建1.1 安裝虛擬機（1）下載並安裝VMware虛擬機軟件。（2）創建虛擬機，實驗環境虛擬機配置如下圖所示。（3）安裝Ubuntu系統，安裝結果如下圖所示。1.2 配置JDK環境下載並安裝JDK，安裝結束後需對

Hadoop 2.X管理與開發（二、資料壓縮與優化）

資料壓縮

壓縮的基本原則

MR支援的壓縮編碼

編碼/解碼器

壓縮效能

設定壓縮方式

Hadoop優化

MapReduce程式的效率瓶頸

相關

優化方法

相關推薦