Hadoop學習筆記之lzo檔案格式

阿新 • • 發佈：2019-01-09

LZO（LZO是Lempel-Ziv-Oberhumer的縮寫）是一種高壓縮比和解壓速度極快的編碼，它的特點是解壓縮速度非常快，無失真壓縮，壓縮後的資料能準確還原，lzo是基於block分塊的，允許資料被分解成chunk，能夠被並行的解壓

一、下載、安裝、編譯lzo

下載

[root@namenode local]#wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

解壓

[root@namenode local]#tar -zxvf lzo-2.06.tar.gz

進入目錄

[root@namenode local 
]#cd lzo-2.06

在lzo目錄下執行

[root@namenode lzo-2.06]#export CFLAGS=-m64
[root@namenode lzo-2.06]#./configure -enable-shared -prefix=/usr/local/hadoop-2.9.1/lzo/
[root@namenode lzo-2.06]#make && sudo make install

以上命令正確執行後會在/usr/local/hadoop-2.9.1/lzo/目錄下生成一些檔案
這裡寫圖片描述
這裡要注意的是：把這個目錄壓縮，並同步到其他子節點到對應位置

[root@namenode 
 hadoop-2.9.1]#tar zcvf lzo.tar.gz lzo/

為了接下來的編譯方便，需要安裝幾個外掛

[root@namenode ~]#yum -y install lzo-devel zlib-devel gcc autoconf automake libtool

二、修改Hadoop配置

進入配置檔案目錄

[root@namenode hadoop-2.9.1]# cd etc/hadoop/

編輯 hadoop-env.sh 檔案

vim hadoop-env.sh

export LD_LIBRARY_PATH=/usr/local/hadoop-2.9.1/lzo 
/lib

編輯 core-site.xml 檔案

vim core-site.xml

<property>
        <name>io.compression.codecs</name>
        <value>org.apache.hadoop.io.compress.GzipCodec,
               org.apache.hadoop.io.compress.DefaultCodec,
               com.hadoop.compression.lzo.LzoCodec,
               com.hadoop.compression.lzo.LzopCodec,
               org.apache.hadoop.io.compress.BZip2Codec
        </value>
</property>

<property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

編輯 mapred-site.xml 檔案

vim mapred-site.xml

<property>
        <name>mapred.compress.map.output</name>
        <value>true</value>
</property>

<property>
        <name>mapred.map.output.compression.codec</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

<property>
        <name>mapred.child.env</name>
        <value>LD_LIBRARY_PATH=/usr/local/hadoop-2.9.1/lzo/lib</value>
</property>

這一步要注意的是：這三個修改後的檔案同樣要同步到其他子節點相應到位置
到這裡我就急著開始測試了，測試方法是使用hive建表，結果…
這裡寫圖片描述

其實原因是還缺少重要一步沒有做

三、安裝、編譯hadoop-lzo-master

下載hadoop-lzo

 [root@namenode ~]#wget https://github.com/twitter/hadoop-lzo/archive/master.zip

解壓檔案

[root@namenode ~]#unzip master.zip

進入目錄

[root@namenode ~]# cd hadoop-lzo-master/

編輯pom.xml中的hadoop版本號跟叢集中使用的版本號一致

<hadoop.current.version>2.9.1</hadoop.current.version>

由於這是一個maven專案，所以需要讓linux支援mvn命令

[root@namenode local]# wget http://mirrors.hust.edu.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz

解壓

[root@namenode local]# tar -zxvf apache-maven-3.5.4-bin.tar.gz

修改環境變數 /etc/profile

MAVEN_HOME=/usr/local/apache-maven-3.5.4
export MAVEN_HOME
export PATH=${PATH}:${MAVEN_HOME}/bin

然後使其生效

[root@namenode hadoop-lzo-master]]#source /etc/profile

接下來執行一連串命令

[root@namenode hadoop-lzo-master]# export CFLAGS=-m64
[root@namenode hadoop-lzo-master]# export CXXFLAGS=-m64
[root@namenode hadoop-lzo-master]# export C_INCLUDE_PATH=/usr/local/hadoop-2.9.1/lzo/include
[root@namenode hadoop-lzo-master]# export LIBRARY_PATH=/usr/local/hadoop-2.9.1/lzo/lib
[root@namenode hadoop-lzo-master]# mvn clean package -Dmaven.test.skip=true

mvn操作比較耗時，23分鐘
這裡寫圖片描述

然後繼續執行一堆命令

[root@namenode hadoop-lzo-master]# cd target/native/Linux-amd64-64/
[root@namenode Linux-amd64-64]# tar -cBf - -C lib . | tar -xBvf - -C ~

上面的命令執行完畢後，會在使用者主目錄~下生成幾個檔案
這裡寫圖片描述

然後到～目錄下，把這幾個檔案複製到hadoop/lib/native目錄下

[root@namenode ~]# cp ~/libgplcompression* $HADOOP_HOME/lib/native/

同時複製package生成到jar包到指定目錄

[root@namenode hadoop-lzo-master]# cp target/hadoop-lzo-0.4.21-SNAPSHOT.jar $HADOOP_HOME/share/hadoop/common/

這一步要注意的是，以上兩個cp複製的操作的檔案同時要同步到其他子節點到相應位置

四、檢測是否配置成功

1、hive方法

create table lzo(id int,name string)
    STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

執行結果：成功
這裡寫圖片描述

2、job日誌方法

執行一個wordcount

hadoop jar /usr/local/hadoop-2.9.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar wordcount /input/1.txt /output/

執行結果：成功
這裡寫圖片描述

五、參考連結

Hadoop學習筆記之lzo檔案格式

LZO（LZO是Lempel-Ziv-Oberhumer的縮寫）是一種高壓縮比和解壓速度極快的編碼，它的特點是解壓縮速度非常快，無失真壓縮，壓縮後的資料能準確還原，lzo是基於block分塊的，允許資料被分解成chunk，能夠被並行的解壓一、下載、安裝

c++學習筆記之多檔案操作

每天進步一點點，努力奮鬥的小菜鳥。曾經搞了好多次的C語言多檔案操作，都沒搞成功，昨天晚上終於搞成功了，雖然是簡單到爆的操作，但我還是挺高興的，哈哈哈。貼出來一方面怕自己忘，一方面若有初學者看到希望能對他們有點小小的幫助。現代數字訊號處理快要考試了，現在慌得一批，估計兩週以內會減少程式設計的時間

Linux學習筆記之1——檔案和目錄管理（硬連線和軟連線）(連結檔,相當於快捷方式）

在這節將要學習linux的連線檔，在之前用"ls -l" 檢視檔案屬性的命令時，其中第二個屬性是連線數。那麼這個連線數是幹什麼的？這就要理解inode。先說一下檔案是怎麼儲存的。檔案儲存在硬碟上，硬碟的最小儲存單位叫做"扇區"（Sector），每個扇區儲存512位元

Linux學習筆記之smb檔案共享

SMB檔案共享服務：SMB協議是建立在NetBIOS協議之上的應用協議，是基於TCP138、139兩個埠的服務，NetBIOS出現之後，Microsoft就使用NetBIOS實現了一個網路檔案/列印服務系統。這個系統基於NetBIOS設定了一套檔案共享協議，Microsoft稱之為SMB（Server Mes

hadoop學習筆記之hdfs

hadoop distributed file system （1）hdfs的架構和原理： hdfs採用master/slave的結構來儲存資料，這種架構主要有四個部分組成：client、namenode、datanode、secondary namenode； c

MFC學習筆記之XML 檔案操作類

可擴充套件標記語言XML(Extend Mark Language)是一種描述資料和資料結構的語言，XML資料可以儲存在任何可以儲存文字的文件中。HTML用來描述外觀，而XML從一開始就被設計為表示原始資訊而完全忽略資料呈現方式。XML之所以功能強大，是因為計算機行業已經把X

JVM學習筆記2:Class檔案格式

一：class檔案概述 Class檔案是JVM的輸入，Java虛擬機器規範中定義了Class檔案的結構。Class檔案是JVM實現平臺無關、技術無關的基礎。 1：Class檔案是一組以8位元組為單位的位元組流，各個資料專案按順序緊湊排列

Hadoop學習筆記之flume Nginx日誌收集到HBase

概述 Nginx訪問日誌形式: $remote_addr – $remote_user [$time_local] “$request”$status $body_bytes_sent“$http_referer” ”$http_user_agent” 例如

[Hadoop] Hadoop學習筆記之Hadoop基礎

1 Hadoop是什麼？　　Google公司發表了兩篇論文：一篇論文是“The Google File System”，介紹如何實現分散式地儲存海量資料；另一篇論文是“Mapreduce:Simplified Data Processing on Large Clusters”，介紹如何對分散式大規模

Linux學習筆記之proc檔案使用篇

在proc 目錄下建立檔案，不得不提到的struct file_operations ，詳細struct 資訊，可以查閱—— [linux kernel] . 本篇主要討論的是以下幾個介面： open int (open) (struct

Hadoop學習筆記之三：用MRUnit做單元測試

引言借年底盛宴品鑑之風,繼續抒我Hadoop之情，本篇文章介紹如何對Hadoop的MapReduce進行單元測試。MapReduce的開發週期差不多是這樣：編寫mapper和reducer、編譯、打包、提交作業和結果檢索等，這個過程比較繁瑣，一旦提交到分散式環境出了問題要定位除錯，重複這樣的過程實在無趣

hadoop學習筆記之

cp Usage: hadoop fs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest> Copy files from source to destination. This command allows multiple sources as we

Hadoop學習筆記之初識MapReduce以及WordCount例項分析

MapReduce簡介 MapReduce是什麼? MapReduce是一種程式設計模型，用於大規模資料集的分散式運算。 Mapreduce基本原理 1、MapReduce通俗解釋圖書館要清點圖書數量，有10個書架，管理員為了加快統計速度，找來了

Linux指令碼攻略學習筆記之臨時檔案命名與隨機數

最適合儲存臨時資料的位置是 /tmp（該目錄中的內容在系統重啟後會被清空） mktemp 命令的用法非常簡單。它生成一個臨時檔案並返回其檔名（如果建立的是目錄，則返回目錄名）。如果提供了定製模板， X

七、Hadoop學習筆記————調優之Hadoop參數調優

node 參數受限 .com 資源 mage 預留空間嘗試 nod dfs.datanode.handler.count默認為3，大集群可以調整為10 傳統MapReduce和yarn對比如果服務器物理內存128G，則容器內存建議為100比較合理配置總

八、Hadoop學習筆記————調優之Hive調優

需要 cnblogs log logs nbsp .cn 集中 bsp 9.png 表1表2的join和表3表4的join同時運行此法需要關註是否有數據傾斜（大量數據集中在某一區間段）八、Hadoop學習筆記————調優之Hive調優

mybatis學習筆記之——mybatis的XML配置檔案（全域性配置檔案）

MyBatis的配置檔案包含了會深深影響MyBatis行為的設定（settings）和屬性（properties）資訊。我們詳細瞭解一下MyBatis的各種標籤的作用以及使用方法。 properties properties：配置，mybatis可以使用properties標籤來引入外部pr

mybatis學習筆記之——mybatis的Mapper XML檔案中select元素

select元素： Select元素用來定義查詢操作，常用屬性如下。 id：唯一識別符號。用來引用這條語句，需要和介面的方法名一致。 parameterType：將會傳入這條語句的引數類的完全限定名或別名。這個屬性是可選的，因為 MyBatis 可以通過 TypeHandler 推斷出具

mybatis學習筆記之——mybatis的Mapper XML對映檔案配置資訊

sql對映檔案對應的增刪改查都有自己的標籤： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN"

mybatis學習筆記之——mybatis的Mapper XML檔案中resultMap屬性

resultMap resultMap：自定義結果集對映規則，自定義某個JavaBean的封裝規則。 id：唯一id，方便引用。 type：自定義規則的Java類。具體其他屬性詳細資訊和配置程式碼如下： <resultMap id="MyEmp" type="com.te

Hadoop學習筆記之lzo檔案格式

一、下載、安裝、編譯lzo

二、修改Hadoop配置

三、安裝、編譯hadoop-lzo-master

四、檢測是否配置成功

1、hive方法

2、job日誌方法

五、參考連結

相關推薦