java 從hadoop hdfs讀取檔案進行groupby並顯示為條形圖

阿新 • • 發佈：2019-01-18

題意：從檔案、網路或者資料庫中讀取資料（格式自定、資料自定），顯示統計結果（包括圖形兩種以上），使用者介面自定

1 讀取資料

1.1 準備資料

此資料為TPCH基準測試集中lineitem.tdl檔案中前25行

示例：第一行如下
1|1552|93|1|17|24710.35|0.04|0.02|N|O|1996-03-13|1996-02-12|1996-03-22|DELIVERIN PERSON|TRUCK|egular courts above the|

其中有15列，分別以“|”隔開

第0列：1
第1列：1552
第2列：93
第n列：…

全部資料截圖如下：

1.2 將資料存入HDFS

檔案系統：HDFS全名為hadoop Distributed File System，是google File system的開源實現，是一種基於java的應用層檔案系統，與hadoop捆綁在一起。HDFS設計成能可靠地在叢集中大量機器之間儲存大量的檔案，它以塊序列的形式儲存檔案。
在hadoop叢集開啟的情況下，使用以下命令將資料儲存在hadoop hdfs檔案系統的JVdata資料夾中。

#hadoop fs –copyFromLocal statistics.tbl ./JVdata

1.3 讀取資料

使用hdfs的API讀取資料流，in.readline為按行讀取資料。
“hdfs://localhost:9000/檔案路徑”為hadoop中地址，需要與${HADOOP_HOME}/etc/Hadoop/core-site.xml設定檔案中保持一致

        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://104.128.92.12:9000</value>
        </property>

public class HDFSTest {
public static void main(String[] args) throws IOException, URISyntaxException{
String file= “hdfs://localhost:9000/檔案路徑"; 

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(file), conf);
Path path = new Path(file);
FSDataInputStream in_stream = fs.open(path);
BufferedReader in = new BufferedReader(new InputStreamReader(in_stream));
String s;
while ((s=in.readLine())!=null) {
System.out.println(s);
}
in.close();
fs.close();
}
}

2.統計資料

2.1 使用hashtable鍵值對方法統計資料
本工程分別對分組資料進行count,求平均avg,求最大值max處理,所以hashtable中鍵為分組統計的關鍵字，值有三個，所以此處自定義一個class,便於構建一鍵多值的hashtable.

class Hw1{
    public int count ;
    public double avg;
    public double max;
    public Hw1(int count,double avg,double max){
        this.count=count;
        this.avg=avg;
        this.max=max;
    }
    public int hashCode(){
       return (String.valueOf(count)+String.valueOf(avg)+String.valueOf(max)).hashCode();
    }
    public String toString(){
        return String.valueOf(count)+String.valueOf(avg)+String.valueOf(max);
    }
}

2.2 groupby分組處理資料

分別對三種目標結果進行計算統計，依次處理每行的資料，將行累加或者求最大。其中word為字串型別的陣列，將元資料用“|”分割，使用下標法對陣列取值。

初始化

Hw1 hw2 = new Hw1(1,avg_now,max_now);
htable.put(key,hw2);

將鍵為key,值為hw2的值put到hashtable中
其中avg_now，max_now為第一次出現key時的相應列的值，

 Hashtable<String, Hw1> htable = new Hashtable<String,Hw1>();
        while ((s=in.readLine())!=null ) {
            String[] words = s.split("\\|");
            String key = words[group];
            double max_now=Double.valueOf(words[Integer.valueOf(command2.substring(command2.length()-2,command2.length()-1))]);
            double avg_now=Double.valueOf(words[Integer.valueOf(command1.substring(command1.length()-2,command1.length()-1))]);
            if(htable.containsKey(key)){
                Hw1 value=htable.get(key);
                value.count=value.count+1;
                if(max_now>=value.max ){
                        value.max=max_now;
                }
                value.avg=value.avg+avg_now;
                htable.put(key, value);
            }else {
                Hw1 hw2 = new Hw1(1,avg_now,max_now);
                htable.put(key,hw2);
            }

3.顯示資料

3.1 列印資料
使用迭代器對hashtable中的值進行遍歷，使用iterator0.hasNext()判斷迭代是否完成，next()為迭代器遍歷下一個關鍵字的方法。htable.get(key)為得key值對應的value,對value.avg平均數取小數點後兩位
System.out.println(“ ”)打印出統計結果


Iterator<String> iterator0 = htable.keySet().iterator();
while(iterator0.hasNext()){
            String key = (String)iterator0.next();
            Hw1 value0 = htable.get(key);
            value0.avg=value0.avg/value0.count;

            BigDecimal b   =   new  BigDecimal(value0.avg);
            value0.avg=   b.setScale(2, BigDecimal.ROUND_HALF_UP).doubleValue();
          System.out.println("keySet:"+key+" "+value0.count+" "+value0.avg+" "+value0.max);
}

3.2 柱狀圖顯示資料

使用switch-case語句，將hashtable中統計的平均資料，傳給相應變數，然後使用第三方包實現柱狀圖的繪製

收集資料集

將上述統計的來的資料使用CategoryDataset包裝在一起，返回dataset便於畫圖使用。

private static CategoryDataset getDataSet(double Type1,double Type2,double Type3,double Type4,double Type5,double Type6,double Type7) {  
           DefaultCategoryDataset dataset = new DefaultCategoryDataset();  
           dataset.addValue(Type1, "Type1", "Type1");  
           dataset.addValue(Type2, "Type2", "Type2");  
           dataset.addValue(Type3, "Type3", "Type3");  
           dataset.addValue(Type4, "Type4", "Type4");  
           dataset.addValue(Type5, "Type5", "Type5"); 
           dataset.addValue(Type6, "Type6", "Type6");  
           dataset.addValue(Type7, "Type7", "Type7");           
return dataset;  
}

輸出：
keySet:6 count: 1 avg: 48040.43 max: 48040.43
keySet:5 count: 3 avg: 36098.98 max: 63818.5
keySet:4 count: 1 avg: 53456.4 max: 53456.4
keySet:3 count: 6 avg: 36405.1 max: 53468.31
keySet:2 count: 1 avg: 36596.28 max: 36596.28
keySet:1 count: 6 avg: 30122.44 max: 56688.12
keySet:7 count: 7 avg: 40209.09 max: 85051.24
finish it ! The size of htable is 7
這裡寫圖片描述

設定橫座標，縱座標和label,以及表頭

public ChartPanel getChartPanel(double Type1,double Type2,double Type3,double Type4,double Type5,double Type6,double Type7){  
   CategoryDataset dataset = getDataSet(Type1,Type2,Type3,Type4,Type5,Type6,Type7);  
        JFreeChart chart = ChartFactory.createBarChart3D(  
                             "Statistical Graph", 
                            "category",
                            "number", 
                            dataset, 
                            PlotOrientation.VERTICAL,  
                            true,          
                            false,         
                            false          
                            );       
        CategoryPlot plot=chart.getCategoryPlot();  
        CategoryAxis domainAxis=plot.getDomainAxis();          
        ValueAxis rangeAxis=plot.getRangeAxis();
         frame1=new ChartPanel(chart,true);        
    return frame1;        
}  
}

輸出：

這裡寫圖片描述

4 編譯執行：

/root/jars/jfreechart-1.0.13/lib為外部包路徑，JavaChart.java為主函式，會產生多個class,但是JavaChart為主要class. -Djava.ext.dirs為載入第三方包，此處為包的路徑

#vim JavaChart.java
#javac -Djava.ext.dirs=./jfreechart-1.0.13/lib JavaChart.java
#java -Djava.ext.dirs=./jfreechart-1.0.13/lib JavaChart

java 從hadoop hdfs讀取檔案進行groupby並顯示為條形圖

1 讀取資料

2.統計資料

3.顯示資料

4 編譯執行：

目錄

UML 圖:

java 從hadoop hdfs讀取檔案進行groupby並顯示為條形圖

Java從資料庫中讀取Blob物件圖片並顯示

java 從jar中讀取檔案三種方法

Servlet從本機讀取一個圖片，並顯示在html頁面

從資料庫中讀取多張圖片並顯示在同一頁面中

從minio中讀取檔案流進行下載檔案

hdfs讀取檔案出發java.io.EOFException異常

kafka-connect-hdfs重啟，進去RECOVERY狀態，從hadoop hdfs拿租約，很正常，但是也太久了吧

java使用FileUtils 對json檔案進行讀寫

java程式碼實現根據JSON檔案進行批量檔案重新命名或者改目錄結構

Java 從指定URL下載檔案並儲存到指定目錄

從資料夾讀取檔案

HDFS讀取檔案詳解

Hadoop HDFS分散式檔案系統設計要點與架構

hadoop HDFS常用檔案操作命令

類似於c語言讀取檔案進行解析

java從一個目錄拷貝檔案到另一個目錄下

Java從web伺服器下載檔案到本地

hadoop平臺讀取檔案報錯

Hadoop權威指南學習——從Hadoop URL讀取資料

java 從hadoop hdfs讀取檔案 進行groupby並顯示為條形圖

1 讀取資料

2.統計資料

3.顯示資料

4 編譯執行：

目錄

UML 圖:

相關推薦

java 從hadoop hdfs讀取檔案進行groupby並顯示為條形圖