Hadoop中基於檔案的資料格式（1）SequenceFile

阿新 • • 發佈：2019-01-29

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.ReflectionUtils;

public class SequenceTest {

	public static final String Output_path = "hdfs://192.x.x.x:9000/a.txt";
	private static final String[] DATA = { "a", "b", "c", };

	@SuppressWarnings("deprecation")
	public static void write(String pathStr) throws IOException {
		Configuration conf = new Configuration();
		Path path = new Path(pathStr);
		FileSystem fs = path.getFileSystem(conf);
		
		SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, path,
				Text.class, IntWritable.class);
		Text key = new Text();
		IntWritable value = new IntWritable();
		for (int i = 0; i < DATA.length; i++) {
			key.set(DATA[i]);
			value.set(i);
			System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, value);
			writer.append(key, value);
		}
		IOUtils.closeStream(writer);
	}

	@SuppressWarnings("deprecation")
	public static void read(String pathStr) throws IOException {
		Configuration conf = new Configuration();
		Path path = new Path(pathStr);
		FileSystem fs = path.getFileSystem(conf);
		SequenceFile.Reader reader = new SequenceFile.Reader(fs, new Path(
				pathStr), conf);
		
		Writable key = (Writable) ReflectionUtils.newInstance(
				reader.getKeyClass(), conf);
		Writable value = (Writable) ReflectionUtils.newInstance(
				reader.getValueClass(), conf);

		while (reader.next(key, value)) {
			System.out.printf("%s\t%s\n", key, value);
		}
		IOUtils.closeStream(reader);
	}

	public static void main(String[] args) throws IOException {
		write(Output_path);
		read(Output_path);
	}
}

Hadoop中基於檔案的資料格式（1）SequenceFile

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import o

如何在ROS中使用PCL—資料格式（1）

在ROS中點雲的資料型別在ROS中表示點雲的資料結構有： sensor_msgs::PointCloud sensor_msgs::PointCloud2 pcl::PointCloud<T> 關於PCL在ros的資料的結構，具體的介紹可查看

Hadoop—SequenceFile檔案的資料格式（1）

一：概述 1 SequenceFile是Hadoop為例儲存二進位制的<k,v>而設計的一種平面檔案。 2 SequenceFile的key和value是writable或者writable子類。 3 SequenceFile的儲存不按照key排序，內部類Writer提供了

大資料之（1）Centos7上搭建全分散式Hadoop叢集

本文介紹搭建一個Namenode兩個DataNode的Hadoop全分散式叢集的全部步驟及方法。具體環境如下：一、環境準備 3個Centos7虛擬機器或者3個在一個區域網內的實際Centos7機器，機器上已安裝JDK1.8，至於不會安裝Centos7或者JDK1.8的同

Javascript高階程式設計學習筆記（三）—— JS中的資料型別（1）

前一段時間由於事情比較多，所以筆記耽擱了一段時間，從這一篇開始我會盡快寫完這個系列。文章中有什麼不足之處，還望各位大佬指出。 JS中的資料型別上一篇中我寫了有關JS引入的Script標籤相關的東西。那麼這一篇，我們可以正式進入JS的世界了，emmm 前面的東西應該比較基礎，大佬們不

（十二）Hibernate中的多表操作（1）：單向多對一

art 保存 int gen round t對象情況映射文件拋出異常由“多”方可知“一”方的信息，比如多個員工使用同一棟公寓，員工可以知道公寓的信息，而公寓無法知道員工的信息。案例一： pojo類 public class Department {

Hadoop架構的初略總結（1）

安全 use 請求參考內存文件系統 href 獲得監控 Hadoop架構的初略總結（1） Hadoop是一個開源的分布式系統基礎架構，此架構可以幫助用戶可以在不了解分布式底層細節的情況下開發分布式程序。首先我們要理清楚幾個問題。 1.我們為什麽需要Hadoop

記錄《kubernetes權威指南》中單機應用棧例子（1）

kubernetes docker單機部署一個mysql+tomcat應用棧前期準備工作使用centos7虛擬機關閉centos防火墻 systemctl stop firewalld systemctl disable firewalld 安裝etcd及kubernetes軟件 yum update

大資料基礎（1）zookeeper原始碼解析

五原始碼解析 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING;}zookeeper伺服器狀態：剛啟動LOOKING，follower是FOLLOWING，leader是LEADING，observer是

pandas讀取檔案踩坑（1）

查閱資料發現是檔案中存在linux無法讀取的字元’\r’即換行符加入引數lineterminator='\n',報錯如下加入引數error_bad_lines=False 報錯如下 Windows檢視猜測是檔案格式的問題，在windows 系統中ed

大資料入門（1）準備linux環境

1、安裝vmware 2、新建虛擬機器 file - new virtual machine install disc image file(iso) 選擇映象檔案選擇虛擬機器安裝路徑，方便以後copy 3、設定虛擬機器ip

Python資料型別（1）數字資料型別

Python資料型別簡介 Python語言是面向物件的一門程式語言。Python中的資料型別其實就是Python的內建基本物件。內建物件主要包括簡單型別和容器型別。簡單型別主要是數值型資料，容器型別是可以包含其他物件的集體，如序列，元組，對映，集合等。Python中的資料型別也是物件，資料型別像

MPI檔案讀寫（1）

使用MPI的檔案讀寫函式時，檔案需為二進位制檔案，可以使用程式碼自己進行格式轉換示例程式碼： //將儲存三個數的文字檔案轉換為二進位制檔案 int r,c,m; FILE *fp = fopen(filein, "r"); fscanf(fp, "%d", &r

android的資料儲存（1）（SharedPreference、File)

一、有些時候程式有少量的資料需要儲存時，而且格式簡單，是普通的字串，標量等，對於這種資料android提供了SharedPreference進行儲存。二、SharedPreference儲存的資料是簡單的key--value對，SharedPreference介面主要負責，讀

Hadoop-0.20.2原始碼學習（1）——原始碼初窺

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0. 為什麼選擇0.20.2版本前面學習搭建的Hadoop版本是2.7.6，可是這裡為什麼要學習0.20.2這麼老的版本呢？

記錄開發中踩過的坑（1）

做了三年多的程式設計開發，偶爾還是會踩坑，記錄一下現在工作是維護一個五六年的老專案，例行維護，每個月都有一些新需求，對原有的一些功能做修改，或者是對某部分功能程式碼進行重構。同時一般每2-3個月上一個大的版本，主要是增加一些新功能，由於程式碼邏輯複雜，確認需求後一般開發三個星期左右，這幾週一般

保持資料一致性---（1）

保持資料一致性—（1）在工作中遇見這樣一種情況：實際情況：三種不同的物件，對一個變數，有的使用，有的不使用。變數儲存在一個欄位裡面，三種個物件在使用時都取了這個欄位的值。但是，不是三個物件切換時都重設了變數的值。結果：變數的值在有些

servlet3.0新特性測試，檔案上傳（1）

servlet程式碼 @MultipartConfig() @WebServlet(name = "test", urlPatterns = "*.do", initParams = { @WebInitPa

吳裕雄 python 資料處理（1）

import time print(time.time())print(time.localtime())print(time.strftime('%Y-%m-%d %X',time.localtime())) 繪圖顯示中文配置 import matplotlib.pyplot as plt

資料探索（1）資料質量分析

資料質量分析資料質量分析的主要任務是檢查原始資料中是否存在髒資料，髒資料一般是指不符合要求，以及不能直接進行相應分析的資料。在常見的資料探勘工作中，髒資料包括如下內容：缺失值異常值不一致的值重複的值以及包含特殊符號的資料缺失值分析

Hadoop中基於檔案的資料格式（1）SequenceFile

相關推薦