Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

阿新 • • 發佈：2019-02-08

1.準備工作，安裝好HABSE之後，執行Hbase shell
create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’
create ‘表名稱’,’列族名稱’
在hbase中列是可以動態新增的，只需要有個列族就可以了

create 'test_lcc_person','lcc_liezu'

然後新增一些資料key相同的是一條資料，一共有6條資料
put ‘表名稱’, ‘rowkey（相當於關係資料的ID,必須唯一）’, ‘列族名稱：列名稱:’, ‘值’

put 'test_lcc_person','1','lcc_liezu:name:','樑川川1' 

put 'test_lcc_person','1','lcc_liezu:sex:','男'
put 'test_lcc_person','1','lcc_liezu:age:','12'

put 'test_lcc_person','2','lcc_liezu:name:','樑川川2'
put 'test_lcc_person','2','lcc_liezu:sex:','男'
put 'test_lcc_person','2','lcc_liezu:age:','12'

put 'test_lcc_person','3','lcc_liezu:name:','樑川川3'
put 'test_lcc_person' 
,'3','lcc_liezu:sex:','男'
put 'test_lcc_person','3','lcc_liezu:age:','12'

put 'test_lcc_person','4','lcc_liezu:name:','樑川川4'
put 'test_lcc_person','4','lcc_liezu:sex:','男'
put 'test_lcc_person','4','lcc_liezu:age:','12'

put 'test_lcc_person','5','lcc_liezu:name:','樑川川5'
put 'test_lcc_person','5','lcc_liezu:sex:' 
,'男'
put 'test_lcc_person','5','lcc_liezu:age:','12'

put 'test_lcc_person','6','lcc_liezu:name:','樑川川6'
put 'test_lcc_person','6','lcc_liezu:sex:','男'
put 'test_lcc_person','6','lcc_liezu:age:','12'

2。編寫spark程式讀取資料

package com.lcc.spark.hbase.test;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Row;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
import org.apache.hadoop.hbase.protobuf.ProtobufUtil;
import org.apache.hadoop.hbase.protobuf.generated.ClientProtos;
import org.apache.hadoop.hbase.util.Base64;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

public class SparkOnHbase {

    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub

        System.setProperty("hadoop.home.dir", "E:\\02-hadoop\\hadoop-2.7.3\\");
        System.setProperty("HADOOP_USER_NAME", "root"); 

        System.setProperty("HADOOP_USER_NAME", "root"); 

       // System.setProperty("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

        SparkConf conf = new SparkConf();
        conf.setAppName("LG_CALCULATE");
        conf.setMaster("local");

        JavaSparkContext context = new JavaSparkContext(conf);


        Configuration configuration = HBaseConfiguration.create();  
        configuration.set("hbase.zookeeper.property.clientPort", "2181");  
        configuration.set("hbase.zookeeper.quorum", "192.168.10.82");  
        //configuration.set("hbase.master", "192.168.10.82:60000");  

        Scan scan = new Scan();
        String tableName = "test_lcc_person";
        configuration.set(TableInputFormat.INPUT_TABLE, tableName);

        ClientProtos.Scan proto = ProtobufUtil.toScan(scan);
        String ScanToString = Base64.encodeBytes(proto.toByteArray());

        configuration.set(TableInputFormat.SCAN, ScanToString);

        JavaPairRDD<ImmutableBytesWritable, Result> myRDD = context.newAPIHadoopRDD(configuration,TableInputFormat.class, ImmutableBytesWritable.class, Result.class);

        System.out.println(myRDD.count());



        myRDD.foreach(new VoidFunction<Tuple2<ImmutableBytesWritable,Result>>(){

            @Override
            public void call(Tuple2<ImmutableBytesWritable, Result> tuple)
                    throws Exception {
                Result result = tuple._2();
                String rowkey = Bytes.toString(result.getRow());
                String name = Bytes.toString(result.getValue(Bytes.toBytes("lcc_liezu"), Bytes.toBytes("name")));
                String sex = Bytes.toString(result.getValue(Bytes.toBytes("lcc_liezu"), Bytes.toBytes("sex")));
                String age = Bytes.toString(result.getValue(Bytes.toBytes("lcc_liezu"), Bytes.toBytes("age")));
                System.out.print(rowkey);
                System.out.print("\t");
                System.out.print(name);
                System.out.print("\t");
                System.out.print(sex);
                System.out.print("\t");
                System.out.print(age);
                System.out.println("\t");

            }

        });
    }
}

執行報錯如下

3201 [Executor task launch worker for task 4] ERROR org.apache.spark.executor.Executor  - Exception in task 0.0 in stage 4.0 (TID 4)
java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
Serialization stack:
    - object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable, value: 31)
    at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:46)
    at org.apache.spark.serializer.SerializationStream.writeKey(Serializer.scala:133)
    at org.apache.spark.storage.DiskBlockObjectWriter.write(DiskBlockObjectWriter.scala:238)
    at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:152)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
3228 [task-result-getter-0] ERROR org.apache.spark.scheduler.TaskSetManager  - Task 0.0 in stage 4.0 (TID 4) had a not serializable result: org.apache.hadoop.hbase.io.ImmutableBytesWritable
Serialization stack:
    - object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable, value: 31); not retrying
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0.0 in stage 4.0 (TID 4) had a not serializable result: org.apache.hadoop.hbase.io.ImmutableBytesWritable
Serialization stack:
    - object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable, value: 31)
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1435)
	at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1423)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1422)

一看就知道這個是object的序列化問題。在google直接所搜Spark serializable得到解決方法，在SparkConf上set序列化：

 System.setProperty("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

這一句話註釋去掉，就可以了。

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

spark學習-SparkSQL--10-spark的一些異常

Caused by: java.io.IOException: com.google.protobuf.ServiceException: java.lang.NoClassDefFoundError: com/yammer/metrics/core/Gauge

spark1.4 讀取hbase 0.96 報錯 java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytes

spark接hbase讀取資料： val sc = new SparkContext(sparkConf) val conf = HBaseConfiguration.create()

大資料實時計算Spark學習筆記（7）—— RDD 資料傾斜處理

1 處理資料傾斜在 reduceByKey 之前先進行隨機分割槽 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran

spark學習-SparkSQL--09-一些函式的使用

1。parallelizePairs餘parallelize /** Distribute a local Scala collection to form an RDD. */ def pa

C++學習筆記-利用rapidJSON讀取JSON資料

JSON檔案如下： { "errorCode":0, "reason":"OK", "result": {"userId":10086,"name":"中國移動"}, "numbers":[110,120,119,911] } 目錄結構如下：

MapReduce 中如何處理HBase中的資料？如何讀取HBase資料給Map？如何將結果儲存到HBase中？

MapReduce 中如何處理HBase中的資料？如何讀取HBase資料給Map？如何將結果儲存到HBase中？ Mapper類：包括一個內部類(Context)和四個方法(setup,map,cleanup,run)； &n

使用MapReduce讀取HBase資料儲存到MySQL

Mapper讀取HBase資料 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import org.apache.hadoop.hbase.client

【GDAL學習】用GDAL讀取柵格資料

1.根據座標讀取遙感影像的單個畫素值 # week 4: get pixel values at a set of coordinates by reading in one pixel at a time import os, sys, time from osgeo import gdal

Spark學習筆記(一)----spark運算元操作

1.前言　　最近在幫公司瞭解大資料方面的技術，涉及到spark的相關內容，所以想寫個筆記記錄一下。目前用到的時spark2.1.0的版本，僅供學習參考。 2.正文　　2.1spark官網運算元的分類　　spark官網上面有對於運算元的描述，但是spark對於運算元的分類粒度較粗，大致為transform

Java實現SparkSQL Thrift 方式讀取Hive資料

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

使用hive讀取hbase資料

（1）建立hbase識別的表 CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERD

Spark學習筆記4——spark執行機制

Spark架構及執行機制 Spark執行架構包括叢集資源管理器（Cluster Manager）、執行作業任務的工作節點（Worker Node）、每個應用的任務控制節點（Driver）和每個工作節點上負責具體任務的執行程序（Executor）。其中，叢集資源管理器可以是S

Spark學習筆記之-Spark遠端除錯

Spark遠端除錯本例子介紹簡單介紹spark一種遠端除錯方法，使用的IDE是IntelliJ IDEA。 1、瞭解jvm一些引數屬性 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,addres

Tensorflow深度學習入門——下載和讀取MNIST資料

Tensorflow下載和讀取MNIST資料 from __future__ import print_function import gzip import os import urllib import numpy SOURCE_URL = 'http://yan

spark學習十六 spark為什麼要實現自己的RPEL

本文中涉及linux作業系統的底層一些知識，有興趣的可以繼續深挖全域性檢視上圖顯示了java原始檔從編譯到載入執行的全域性檢視，整個過程中最主要的步驟是編譯成過程，由編譯器對java原始檔進行編譯整理，生成java bytecodes類的載入和初始化，主要

【spark 學習筆記】Spark學習筆記精華（1）

好記性不如爛筆頭，順便就開始用手機練習打字了，也分享給感興趣的朋友學習下。 1.take可以檢視RDD中前面幾個元素，而且代價很小。 rdd.take(5) 2.可以用takeSample對資料

Spark學習筆記：Spark Streaming與Spark SQL協同工作

Spark Streaming與Spark SQL協同工作 Spark Streaming可以和Spark Core，Spark SQL整合在一起使用，這也是它最強大的一個地方。例項：實時統計搜尋次數大於3次的搜尋詞 package StreamingDemo i

《從0到1學習Flink》—— Flink 讀取 Kafka 資料寫入到 RabbitMQ

開發十年，就只剩下這套架構體系了！ >>>

Caused by: java.io.NotSerializableException: org.apache.spark.unsafe.types.UTF8String$IntWrapper

菜雞一隻！如果有什麼說錯的還請大家指出批評，堅決改正！！遇到了一個挺詭異的報錯把，反正比較無語，發現國內網站完全搜不到這個報錯的解決方法，因此在這裡記錄下！！ 1、環境：這是一個spark的Task not serializable問題，因此只需要關注spark的版本就好了，我的版本是

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

相關推薦