spark使用scala讀取Avro資料

阿新 • • 發佈：2019-01-17

為什麼使用 Avro ？

最基本的格式是 CSV ，其廉價並且不需要頂一個一個 schema 和資料關聯。

隨後流行起來的一個通用的格式是 XML，其有一個 schema 和資料關聯，XML 廣泛的使用於 Web Services 和 SOA 架構中。不幸的是，其非常冗長，並且解析 XML 需要消耗記憶體。

另外一種格式是 JSON，其非常流行易於使用因為它非常方便易於理解。

這些格式在 Big Data 環境中都是不可拆分的，這使得他們難於使用。在他們之上使用一個壓縮機制（Snappy，Gzip）並不能解決這個問題。

因此不同的資料格式出現了。Avro 作為一種序列化平臺被廣泛使用，因為它能跨語言，提供了一個小巧緊湊的快速的二進位制格式，支援動態 schema 發現（通過它的泛型）和 schema 演變，並且是可壓縮和拆分的。它還提供了複雜的資料結構，例如巢狀型別。

例子

讓我們來看一個例子，建立一個 Avro schema 並生成一些資料。在一個真實案例的例子中，組織機構通常有一些更加普通的格式，例如 XML，的資料，並且他們需要通過一些工具例如 JAXB 將他們的資料轉換成 Avro。我們來使用這個例子，其中 twitter.avsc 如下：

{"type":"record","name":"twitter_schema","namespace":"com.miguno.avro","fields":[{"name":"username","type":"string","doc":"Name of the user account on Twitter.com" 
},{"name":"tweet","type":"string","doc":"The content of the user‘s Twitter message"},{"name":"timestamp","type":"long","doc":"Unix epoch time in seconds"}],"doc:":"A basic schema for storing Twitter messages"}

twitter.json 中有一些資料：

{"username":"miguno","tweet":"Rock: Nerf paper, scissors is fine." 
,"timestamp":1366150681}{"username":"BlizzardCS","tweet":"Works as intended.  Terran is IMBA.","timestamp":1366154481}

我們將這些資料轉換成二進位制的 Avro 格式：

$ java -jar ~/avro-tools-1.7.7.jar fromjson --schema-file twitter.avsc twitter.json > twitter.avro

然後，我們將 Avro 資料轉換為 Java：

$ java -jar /app/avro/avro-tools-1.7.7.jar compile schema /app/avro/data/twitter.avsc /app/avro/data/

現在，我們編譯這些類並將其打包：

$ CLASSPATH=/app/avro/avro-1.7.7-javadoc.jar:/app/avro/avro-mapred-1.7.7-hadoop1.jar:/app/avro/avro-tools-1.7.7.jar
$ javac -classpath $CLASSPATH /app/avro/data/com/miguno/avro/twitter_schema.java
$ jar cvf Twitter.jar com/miguno/avro/*.class

我們啟動 Spark，並將上面建立的 Jar 和一些需要的庫（Hadoop 和 Avro）傳遞給 Spark 程式：

$ ./bin/spark-shell --jars /app/avro/avro-mapred-1.7.7-hadoop1.jar,/avro/avro-1.7.7.jar,/app/avro/data/Twitter.jar

在 REPL 中，我們獲取資料並建立一個 RDD：

scala>import com.miguno.avro.twitter_schema
import org.apache.avro.file.DataFileReader;import org.apache.avro.file.DataFileWriter;import org.apache.avro.io.DatumReader;import org.apache.avro.io.DatumWriter;import org.apache.avro.specific.SpecificDatumReader;import org.apache.avro.mapreduce.AvroKeyInputFormatimport org.apache.avro.mapred.AvroKeyimport

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    0016-Avro序列化&反序列化和Spark讀取Avro資料
       
 溫馨提示：要看高清無碼套圖，請使用手機開啟並單擊圖片放大檢視。 
 
1.簡介 
本篇文章主要講如何使用java生成Avro格式資料以及如何通過spark將Avro資料檔案轉換成DataSet和DataFrame進行操作。 
1.1Apache Arvo是什麼？ 
Apache Avro 是一個數據序列 

  
 

    

    
    spark使用scala讀取Avro資料
      
                
為什麼使用 Avro ？

最基本的格式是 CSV ，其廉價並且不需要頂一個一個 schema 和資料關聯。

隨後流行起來的一個通用的格式是 XML，其有一個 schema 和 資料關聯，XML 廣泛的使用於 Web Services 和 SOA 架構中。不幸的 

  
 

    

    
    無法訪問J盤顯示磁盤結構損壞且無法讀取的資料恢復辦法
      位置不可用無法訪問硬盤數據恢復RAJ盤打不開磁盤結構損壞且無法讀取，是因為這個I盤的文件系統內部結構損壞導致的。要恢復裏面的數據就必須要註意，這個盤不能格式化，否則數據會進一步損壞。具體的恢復方法看正文
工具/軟件：星空數據恢復軟件
步驟1：先百度搜索並下載程序運行後，直接雙擊需要恢復的分區，接著解壓再右擊軟 

  
 

    

    
    讀取資料庫資料，以報表的形式顯示在前臺網頁（asp.net+echarts+ajax+資料庫）
       
 
 1、首先在VS2010裡新建專案ASP.NET Web應用程式：WebApplication1； 
 在應用程式裡新建專案：WebForm.aspx(Web窗體),Model.cs(類),Controller.cs(類),Handler.ashx(一般處理程式),WebForm.js(JScript 

  
 

    

    
    【兩行命令】R語言讀取excel資料
       
 
  
  
 安裝庫 
 安裝xlsx 
 install.packages("xlsx")
 
 使用 
 library(xlsx)
ray = read.xlsx('D:/Code/R/Data in Excel/Chapter 8/gamma-ray.xls',1)
 
 後面的引數，第一個放 

  
 

    

    
    Newtonsoft.Json.Linq物件讀取DataSet資料
       Newtonsoft.Json.Linq物件讀取DataSet資料： 
 private void button4_Click(object sender, EventArgs e)        {   & 

  
 

    

    
    pandas讀取20W資料excel，每999行生成一個查詢sql語句
       
 
  
  
 前言 
 工作中遇到一個小問題，Oralce資料庫的查詢是不能大於1000條in查詢的，所以需要對檔案進行切割。資料來源是20w的excel資料，於是想到用pandas對其進行讀取，然後每998行生成一個新的sql檔案。 
 程式碼實現 
 # coding = utf-8

"""
@ 

  
 

    

    
    SQL與eclipse的連線，從資料庫讀取表資料，將二維陣列資料匯入表
       
 
  
 示例： 
 import java.util.List; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.Statement; impor 

  
 

    

    
    8、利用xlrd讀取excel資料
       
 
 在同一個sheet表中可以有多個表，表與表之間用空格來隔離，遇到空格，則認為這個表結束了。
 
 程式碼如下：
 import xlrdfile_path = "C:/Users/Administrator/Desktop/python/excel/1.xlsx"sheet_name = '表2't 

  
 

    

    
    10、利用POI讀取excel資料
       
 
 自動化指令碼和資料是分離的，這裡是通過POI來實現excel的資料讀取的。
 以下實現的是1個excel sheet表中可以分作多個表，判斷一個表是否結束是根據空格來的。
 
 程式碼為：
 package common;import java.util.ArrayList;import java. 

  
 

    

    
    Java-讀取指定資料夾下檔名
       
 
  兩種返回方式 
 1. 陣列 
 2.集合 
 import java.io.File;
import java.util.ArrayList;

public class Test {
	/**
	 * 陣列
	 */
	public static String[] getFileNa 

  
 

    

    
    python快速讀取大資料1
       
  1 rd = pd.read_csv(path7 + u'0501-0914.csv',encoding = 'gbk',iterator = True)
 2 loop =True
 3 dflst = []
 4 i = 0
 5 while loop:
 6     try:
 7        

  
 

    

    
    spark讀取hive資料-java
       
  
  
 需求：將hive中的資料讀取出來，寫入es中。 環境：spark 2.0.2  
 1. SparkSession裡設定enableHiveSupport() 
 		SparkConf conf = new SparkConf().setAppName("appName").setMast 

  
 

    

    
    FileInputStream讀取位元組流。讀取檔案資料的兩種方式(寫的好)
       
 
 總結：    
 //1讀取檔案的資料到位元組流inputStream     InputStream inputStream = new FileInputStream("D:\\demo.txt");//讀取檔案的資料到位元組流inputStream。 
 

  
 

    

    
    讀取Excel資料根據經緯度調取阿里雲API獲取地址名稱 + 柱形圖轉化顯示 實戰
       
 
  
  
 1、需求：  前兩天接到boss給我的一個任務，需要根據經緯度資訊統計省份分佈，boss給了我一張excel，包含資料包括：經度、緯度、使用次數，想要我統計每一個省份的次數之後  2、解決思路：  通過檔案讀取方式獲得對應經度、緯度、使用次數資料，，然後呼叫阿里雲或者高德地圖的API就可 

  
 

    

    
    win7（64位）Sql server 用T-sql讀取本地資料檔案dbf的資料檔案
      原文地址：https://www.cnblogs.com/cl1006/p/9924066.html 
第一步啟用Ad Hoc Distributed Queries  在SQLserver執行以下的語句： 
exec sp_configure 'show advanced options 

  
 

    

    
    python 讀取一個資料夾下所有影象
       
 
 import os

g = os.walk("G:")
for path,d,filelist in g:  
    for filename in filelist:
        if filename.endswith('jpg'):
            print (os.path 

  
 

    

    
    python3隨筆-opencv讀取影象資料
      如何安裝opencv-python 
$pip3 install opencv-python 
如何讀取影象資料 
import numpy as np
import cv2 as cv
img = cv.imread('1.png')
print(img)
print(img.dtype) 
[[[200  

  
 

    

    
    Pandas讀取excel資料——pearson相關性分析
       
 
  
  
 利用Pandas和tushare進行一個簡單的資料讀取和分析 
 一丶Pandas的DataFrame操作方法 
 一個表格型資料，提供列名和不同的值，以及索引值 
 通過下面程式碼記錄一些DataFrame的方法 
 from pandas import Series,DataFram 

  
 

    

    
    windows python讀取grib2資料
      一、環境準備 
（1）、python3環境 
（2）、wgirb工具（用於讀取grib1檔案），下載地址：  ftp://ftp.cpc.ncep.noaa.gov/wd51we/wgrib 
（3）、wgirb2工具（用於讀取grib2檔案），下載地址：ftp://ftp.cpc.ncep.noa