java 讀寫Parquet格式的數據 Parquet example

阿新 • • 發佈：2017-07-12

readline byte ble print 三種每一個 sta cep edr

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Logger;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.GroupFactory;
 
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetReader.Builder;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.example.GroupWriteSupport;
 
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;

public class ReadParquet {
    static Logger logger=Logger.getLogger(ReadParquet.class);
    public static void main(String[] args) throws Exception {
        
//        parquetWriter("test\\parquet-out2","input.txt"); 

        parquetReaderV2("test\\parquet-out2");
    }
    
    
    static void parquetReaderV2(String inPath) throws Exception{
        GroupReadSupport readSupport = new GroupReadSupport();
        Builder<Group> reader= ParquetReader.builder(readSupport, new Path(inPath));
        ParquetReader<Group> build=reader.build();
        Group line=null;
        while((line=build.read())!=null){
            System.out.println(line.toString());
        }
        System.out.println("讀取結束");
        
    } 
    //新版本中new ParquetReader()所有構造方法好像都棄用了,用上面的builder去構造對象
    static void parquetReader(String inPath) throws Exception{
        GroupReadSupport readSupport = new GroupReadSupport();
        ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
        Group line=null;
        while((line=reader.read())!=null){
            System.out.println(line.toString());
        }
        System.out.println("讀取結束");
        
    }
    /**
     * 
     * @param outPath　　輸出Parquet格式
     * @param inPath  輸入普通文本文件
     * @throws IOException
     */
    static void parquetWriter(String outPath,String inPath) throws IOException{
        MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
                " required binary city (UTF8);\n" +
                " required binary ip (UTF8);\n" +
                " repeated group time {\n"+
                　　" required int32 ttl;\n"+
               　　 " required binary ttl2;\n"+
                "}\n"+
              "}");
        GroupFactory factory = new SimpleGroupFactory(schema);
        Path path = new Path(outPath);
       Configuration configuration = new Configuration();
       GroupWriteSupport writeSupport = new GroupWriteSupport();
       writeSupport.setSchema(schema,configuration);
       ParquetWriter<Group> writer = new ParquetWriter<Group>(path,configuration,writeSupport);
　　　　//把本地文件讀取進去，用來生成parquet格式文件
       BufferedReader br =new BufferedReader(new FileReader(new File(inPath)));
       String line="";
       Random r=new Random();
       while((line=br.readLine())!=null){
           String[] strs=line.split("\\s+");
           if(strs.length==2) {
               Group group = factory.newGroup()
                       .append("city",strs[0])
                       .append("ip",strs[1]);
               Group tmpG =group.addGroup("time");
               tmpG.append("ttl", r.nextInt(9)+1);
               tmpG.append("ttl2", r.nextInt(9)+"_a");
               writer.write(group);
           }
       }
       System.out.println("write end");
       writer.close();
    }
}

說下schema（寫Parquet格式數據需要schema，讀取的話"自動識別"了schema）

/*
 * 每一個字段有三個屬性：重復數、數據類型和字段名，重復數可以是以下三種：
 *         required(出現1次)
 *         repeated(出現0次或多次)
 *         optional(出現0次或1次)
 * 每一個字段的數據類型可以分成兩種：
 *         group(復雜類型)
 *         primitive(基本類型)
 * 數據類型有
 * INT64, INT32, BOOLEAN, BINARY, FLOAT, DOUBLE, INT96, FIXED_LEN_BYTE_ARRAY
 */

maven依賴（我用的1.7）

<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-hadoop</artifactId>
    <version>1.7.0</version>
</dependency>

java 讀寫Parquet格式的數據 Parquet example

Java 使用帶緩沖的字節流讀寫、拷貝數據

exceptio fileinput edi pre 拷貝數據 args input class buffer 使用帶緩沖的字節流可以提高讀寫速度。 import java.io.BufferedInputStream; import java.io.Buffere

多線程面試題系列（16）：多線程十大經典案例之一雙線程讀寫隊列數據

als single 間隔 eas 講解 art ces 依賴 ini 前十五篇中介紹多線程的相關概念，多線程同步互斥問題（第四篇）及解決多線程同步互斥的常用方法——關鍵段、事件、互斥量、信號量、讀寫鎖。為了讓大家更加熟練運用多線程，將會有十篇文章來講解十個多線程使用案例，

從零開發分布式數據庫中間件一、讀寫分離的數據庫中間件（轉）

mark str 日誌系統 arraylist none views gpo arr 體系從零開發分布式數據庫中間件一、讀寫分離的數據庫中間件

windows NLB實現MSSQL讀寫分離--從數據庫集群讀負載均衡

sql AC 安裝數據庫 track esp 清華創建 schema brush 主從模式，幾乎大部分出名的數據庫都支持的一種集群模式。當Web站點的訪問量上去之後，很多站點，選擇讀寫分離，減輕主數據庫的的壓力。當然，一主多從也可以作用多個功能，比如備份。這裏主要演示如

Java代碼 json格式數據轉化成xml jsonToXml

exce size iba ram turn except .get pub next() import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONArray; import com.alibab

Java讀寫CSV格式檔案（opencsv）

一，讀取CSV格式檔案： import java.io.File; import java.io.FileReader; import java.util.List; import au.com.bytecode.opencsv.CSVReader; public c

12-Java讀寫CSV格式檔案（opencsv）

maven依賴  <de

java 讀寫Parquet格式的數據 Parquet example

readline byte ble print 三種每一個 sta cep edr import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io

Java讀寫二進制數據

java ets val zipentry har file oid pfile mon import java.io.*; import java.time.LocalDate; public class Test { public static v

Spring配置動態數據源-讀寫分離和多數據源

brush ride 常開 resolve ttr 表達 customer 事務管理 cda 　　在現在互聯網系統中，隨著用戶量的增長，單數據源通常無法滿足系統的負載要求。因此為了解決用戶量增長帶來的壓力，在數據庫層面會采用讀寫分離技術和數據庫拆分等技術。讀寫分離就是就是一

Java解析JSON格式數據

還需要 net iss clas public 一個 println blog 導入轉 Java解析JSON格式的數據主要用到兩個類JSONObject和JSONArray，這兩個類在json-lib-2.4-jdk15包中，在使用JSONObject時除了需要這個包

java讀寫excel（POI，支援xls和xlsx兩種格式）

這應該是一個比較全的示例了，更加複雜的功能可以在此基礎上擴充套件。此示例基於apache的POI類庫，相關jar包就不列舉了。這個類庫很通用，網上很好找。 1、不包含單元格合併的寫excel /** * excel匯出到輸出流 * 誰呼叫誰負責關閉輸出流 *

Java學習筆記——淺談數據結構與Java集合框架（第一篇、List）

技術分享 emp 鏈表 adc 下標 -c nod nal integer 橫看成嶺側成峰，遠近高低各不同。不識廬山真面目，只緣身在此山中。　　　　　　　　　　　　　　——蘇軾這一塊兒學的是雲裏霧裏，咱們先從簡單的入手。逐漸的撥開迷霧見太陽。本次先做List集合的三

java 中幾種常用數據結構

初學 ble log app 使用 blog list 好的 sort Java中有幾種常用的數據結構，主要分為Collection和map兩個主要接口（接口只提供方法，並不提供實現），而程序中最終使用的數據結構是繼承自這些接口的數據結構類。一、幾個常用類的區別 1．

關於java中實現在oracle數據庫中實現對中文首字母進行排序的解決方案

capital obj create team capi substr order ring 一個首先介紹Oracle 9i新增加的一個系統自帶的排序函數 1、按首字母排序在oracle9i中新增了按照拼音、部首、筆畫排序功能。設置NLS_SORT值 SCHIN

Java核心技術之基本數據類型

又能 art 資料 string 1.4 get bool 讀取大數這篇文章。我們討論一些java的最主要的東西。這些東西我們一般剛剛學java的時候就學過，可是不一定真正明確。正好，我在做一個讀取內存的值，涉及到bit位的值的讀取和寫。那就能夠討論一個

java代碼導出數據到Excel、js導出數據到Excel(三)

文件 servlet .net rii try use sss open list jsp內容忽略，僅寫個出發按鈕： <button style="width: 100px" onclick="expertExcel()" >JS導出Exce

Java變量及基本數據類型

學生範圍 student light ann 變化概念 clas 學生成績 1.Java變量 1.1 變量的概念內存中的一塊存儲區域；該區域有自己的名稱(變量名)和類型(數據類型)；該區域的數據可以在同一類型範圍內不斷變化； 1.1.1 為什麽需要定義變量

java基礎：字符數據參與運算

bottom ace margin hit val ascii sci order ott System.out.println(‘a‘); 、輸出結果：a System.out.println(‘a‘+1); 輸出結果 98 System.out.prin

HIVE json格式數據的處理

java 參數使用 pat 避免 jason obj cond 數據在hive 避免不了Jason格式的話，可以使用如下兩個函數 HIVE直接讀入json的函數有兩個：（1）get_json_object(string json_string, string

java 讀寫Parquet格式的數據 Parquet example

相關推薦