spark下讀寫lzo檔案（java）

阿新 • • 發佈：2019-01-26

1、編譯安裝hadoop-lzo

這個網上已經說的很詳細了，具體可以參考這個連結：

2、具體如何配置lzo，上面的文件已經有了，但是為了討論問題，這裡再複製一下：

a、修改hadoop配置檔案core-site.xml

Xml程式碼

<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,org.apache.hadoop.io.compress.BZip2Codec</

value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

b、修改hadoop配置檔案mapred-site.xml Xml程式碼

<property>
<name>mapred.compress.map.output</

name>
<value>true</value>
</property>
<property>
<name>mapred.map.output.compression.codec</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

看到了吧，這兩個地方最終壓縮的編碼格式都是com.hadoop.compression.lzo.LzoCodec

3、然後往hadoop寫入相關檔案，我用的是lzop格式，同時生成索引檔案（java實現）

4、然後在spark中讀取

	SparkConf conf = new SparkConf().setAppName("test");        
        JavaSparkContext sc = new JavaSparkContext(conf);
        Configuration configuration = new Configuration();
        configuration.set("mapred.output.compress", "true");
        configuration.set("mapred.output.compression.codec", "com.hadoop.compression.lzo.LzopCodec");
        String fileName = "hdfs://ip:port//data/.../.../*/info_credit_card.lzo";
        JavaPairRDD<LongWritable, Text> pairRDD =
            sc.newAPIHadoopFile(fileName,
                         LzoTextInputFormat.class,
                         LongWritable.class,
                         Text.class,
                         configuration);

pairRDD通過flatMap轉為行，將會得到正確的值，並且已經做過分片；

疑惑：

1、在配置檔案core-site.xml和mapred-site.xml都是lzoCodec，但是在讀寫的時候卻必須用lzopCodec，我試圖直接用lzoCodec，卻總是失敗，而網上的例子都是lzopCodec ？

2、當然，用lzo的Stream方式直接讀寫hdfs檔案是沒有問題的，但這樣就無法使用JavaSparkContext的newAPIHadoopFile方法了，該方法可以直接按照規則匹配檔案，生成分散式的rdd

spark下讀寫lzo檔案（java）

1、編譯安裝hadoop-lzo 這個網上已經說的很詳細了，具體可以參考這個連結： 2、具體如何配置lzo，上面的文件已經有了，但是為了討論問題，這裡再複製一下： a、修改hadoop配置檔案core-site.xml Xml程式碼 <prope

C語言隨機讀寫資料檔案（二）

int fseek(FILE * fp, long offset, int fromWhere)：設定檔案位置標記，方法引數說明： fp：FILE型別指標，該指標對應的檔案即是檔案位置標記所標記的檔案； offset：偏移量； fromWhere：偏移起始點，其值可以為SEEK_SET、SEEK

C語言隨機讀寫資料檔案（一）

void rewind(FILE * fp)：將檔案位置標記重新指向檔案開頭，該函式沒有返回值；【例子】計算機D盤根目錄有一個存放學生資訊的stud.dat檔案，請先講檔案資訊顯示在控制檯，然後在將資料複製到F盤stud.dat檔案中。 #include <stdio.h> #

python3 如何讀寫配置檔案（ini）

如何使用Python3讀取配置檔案（ini） # ini檔案簡介 ini是我們常見到的配置檔案格式之一。 ini是微軟Windows作業系統中的副檔名（也常用在其他系統）。 INI是英文“初始化（Initial）”的縮寫。正如該術語所表示的，INI檔案被用來對作業系統或特

VC逐行讀寫日誌檔案（TXT）

void Ctestvc2008Dlg::OnBnClickedButton2() { // TODO: 在此新增控制元件通知處理程式程式碼 //讀寫檔案全名 const int nBufSize = 512; TCHAR chBuf[nBufSize];

C++讀寫excel檔案（三）—— 用OLE讀寫

轉自http://blog.csdn.net/yukin_xue/article/details/11209283 參考博文： http://blog.csdn.net/rekrad/article/details/7666196http://blog.csdn.net/

python讀寫配置檔案（ConfigParser）

因為我接下來要學網路程式設計和資料庫操作，IP地址和埠會跟著自己部署的主機變化而變化，總不能一變化就去修改程式碼吧，所以想到了配置檔案，將程式的一些配置儲存為檔案，用到的時候再去讀取和修改。如果我們

java指定編碼的按行讀寫txt檔案（幾種讀寫方式的比較）

輸入輸出的幾種形式 1.FileReader，FileWriter File r = new File("temp.txt") FileReader f = new FileReader(name);//讀取檔案name BufferedReader b = new Buf

java 按位元組讀寫二進位制檔案（Base64編碼解碼）

最近在做專案時遇到這樣一個需求：依次讀取本地資料夾裡所有檔案的內容，轉為JSON，傳送到ActiveMQ的訊息佇列, 然後從MQ的訊息佇列上獲取檔案的資訊，依次寫到本地。常見的檔案型別，比如.txt 和.png等檔案的讀寫並不難。但是，我剛才所提到的需求，如果用常規的方法去讀寫，比如按位元組讀取檔案內容

C++讀寫XML檔案（libxml2庫）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

《自己動手寫java虛擬機器》學習筆記（六）-----解析class檔案（java）

專案地址：https://github.com/gongxianshengjiadexiaohuihui 註釋都寫的很清楚，有一些概念問題，請參考go版本的實現目錄結構首先是位元組轉換工具，因為java和go的類庫不同，另外需注意class檔案是大端儲存方式（高位元組放低地址，

《自己動手寫java虛擬機器》學習筆記（四）-----搜尋class檔案（java）

專案地址：https://github.com/gongxianshengjiadexiaohuihui 首先是定義一個抽象類，把四種路徑的格式抽象出來 Entry.java package classpath; import java.io.IOException;

C++讀寫XML檔案（使用tinyxml庫）

使用以下程式碼之前，需要下載TinyXml庫，幷包含到工程下 #include <stdio.h> #include "tinyxml.h" #include <iostream> #include <cstring> usin

系統技術非業餘研究 » Linux下方便的socket讀寫檢視器（socktop）

晚上雕樑說要找個工具來調查下unix域套接字的傳送和接受情況，比如說A程式是否送出，B程式是否接收到，他找了tcpdump ,wireshark什麼的，貌似都不支援。這時候還是偉大的systemtap來救助了。因為所有的socket通訊都是通過socket介面來的，任何family的通訊

VC讀寫word檔案（RTF檔案）

這幾天一直在研究VC讀寫有格式文字檔案（RTF檔案）的方法，終於動明白一些，下面是我的程式碼，在VS2005下執行正常，希望能幫助大家解決一點問題，若有書寫不周，歡迎各位批評指正。 void CVCreadwriteRTFDlg::OnBnClickedButton1()

C檔案讀寫函式介紹（轉）

1. 首先要理解幾個概念：檔案：按一定規則儲存在磁碟上的資料集合。檔名：能唯一標識某個磁碟檔案的字串。形式：碟符：/ 路徑 / 檔名.副檔名文字檔案:：資料以其數字字元的ASCII碼形式、一個位元組一個位元組地儲存在磁碟上。二進位制檔案：資料以二進位制形式在儲存在磁碟上。裝置檔案：輸入

Mac 下讀寫NTFS檔案

Mac OS 版本：10.11.16 (OS X EI Capitan) 文章末尾附上小白使用使用方式 1、首先插入需要寫入檔案的NTFS格式的U盤或行動硬碟 2、開啟終端，然後執行以下命令，會提示輸入密碼，輸入當前登入賬號的密碼即可，如果不行請輸入root賬號的

Spark WordCount 讀寫hdfs檔案 (read file from hadoop hdfs and write output to hdfs)

create a scala project and a WordCount class as follow: package com.qiurc.test import org.apache.spark._ import SparkContext._ o

JavaScript 讀寫Excel檔案（原生 + NodeJs）

1.JavaScript read write excel 原生 https://www.techwalla.com/articles/how-to-use-javascript-with-excel http://blog.csdn.net/foreverxyi/arti

VC 程式設計ANSI環境下讀寫Unicode檔案

沒有注意到檔案編碼的不同會產生這麼多的問題，在動手以前查詢了很多資料，在本部落格中收藏了不少先輩的成果，在這裡一併表示致敬！關於ANSI和Unicode編碼的原理在這裡也不說了，主要講下如何讀寫！首先確定你的工程是採用的是什麼編碼環境，預設是ANSI，不同的字符集讀

spark下讀寫lzo檔案（java）

相關推薦