spark 讀取elasticsearch中資料不完整問題

阿新 • • 發佈：2019-02-09

使用spark讀取elasticsearch中的資料，使用es提供的api來進行，

sc.esRDD("logstash").values

官方網站也是這種方式讀取資料的，但是我測試的時候有時候會出現讀取資料不完整的情況，比如本來讀取的資料是這樣的

Map(msg -> 2016-03-18 15:24:14 System_ID=ruijie sp_malware:Client_IP=172.40.1.100 Server_IP=61.4.184.50 URL=app.weather.com.cn/dataService/appManage file_name=web scanner2,virus_name=CIH3 Action=block_log Method=POST, srcip -> 172.40.1.100

但是我讀取的資料卻是這樣的

Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:03 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)

看來這種讀資料的方式是有問題的，後來就改成讀取方式為下面這種方式，加上type

sc.esRDD("logstash/count").values

然後問題解決，

spark 讀取elasticsearch中資料不完整問題

使用spark讀取elasticsearch中的資料，使用es提供的api來進行， sc.esRDD("logstash").values 官方網站也是這種方式讀取資料的，但是我測試的時候有時候會出現讀取資料不完整的情況，比如本來讀取的資料是這樣的 Map(msg ->

spark讀取elasticsearch中陣列型別的欄位

之前做的一個專案需要用sparksql讀取elasticsearch的資料，當讀取的型別中包含陣列時報錯. 讀取方式大概是 val options = Map("pushdown" -> "true", "strict" -> "false", "

串列埠通訊中，解決serialport.DataReceived接收到的資料不完整

private SerialPort serialport = new SerialPort(); private StringBuilder builder = new StringBuilder(); // private String

spark流式讀取hdfs中資料

名詞解釋： spark streaming：定義：一個對實時資料進行高容通量、容錯處理的流式處理系統，可以對多種資料來源進行Map、reduce和join等複雜操作，並將結果儲存到外部檔案系統、

使用spark讀取es中的資料並進行資料清洗，使用fp-growth演算法進行加工

最近學了spark，用fg-growth演算法進行資料的關聯排序 object HelloPFg { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark M

導致資料庫中資料不一致的根本原因

資料庫中很有可能存在不一致的資料。一般導致資料庫中資料不一致的根本原因有三種情況。第一種是資料冗餘造成的，第二種是併發控制不當造成的，第三種是由於某種原因（比如軟硬體故障或者操作錯誤）導致資料丟失或資料損壞。讓我們具體講講這三種情況：第一種情況：資料冗餘假如資料庫

k8s叢集中 spark訪問hbase中資料

首先我們需要對hbase的訪問原理非常清除.可以參考:https://blog.csdn.net/luanpeng825485697/article/details/80319552 我們這裡已經在k8s中部署了hdfs和zookeeper以及hbase.部署可以參考: https:

從原始碼看Spark讀取Hive表資料小檔案和分塊的問題

原文連結：https://mp.csdn.net/postedit/82423831 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討

Oracle 表，表中資料不小心刪除找回的方法

一：drop 掉的表可以通過閃回來恢復比如： flashback table t1 to timestamp to_timestamp('2018-10-15 13:04:13','yyyy-mm-dd hh24:mi:ss'); 二：delete 的表中資料可以通

【轉】QT 串列埠QSerialPort + 解決接收資料不完整問題

類：QSerialPort 例程：Examples\Qt-5.9.1\serialport\terminal，該例子完美展示了qt串列埠收發過程，直接在這上面修改就可以得到自己的串列埠軟體。核心方法 //讀串列埠QByteArray QSerialPort::readAll()//寫串列埠qint64 Q

k8s叢集中 spark訪問hbase中資料

hbase資料分割槽是按照region進行的，分割槽的location就是各個region的location。那麼後續分配executor時可以按照region所在機器分配對應executor，直接在本機讀取資料計算。我們先來往hbase裡面寫兩個資料 h

access vba 用recordset讀取表中資料的簡單方法

'strQuery是表名，查詢名等 Public Function Getrs(Byval strQuery as string) as ADODB.Recordset Dim objRs As New ADODB.Recordset on Error GoTo Er

win10 開啟藍由於其配置資訊(登錄檔中的)不完整或已損壞

在管理員命令提示符下鍵入以下命令： Dism /Online /Cleanup-Image /ScanHealth 這條命令將掃描全部系統檔案並和官方系統檔案對比，掃描計算機中的不一致情況。 Dism /Online /Cleanup-Image /Che

spark讀取多個資料夾(巢狀)下的多個檔案

在正常呼叫過程中，難免需要對多個資料夾下的多個檔案進行讀取，然而之前只是明確了Spark具備讀取多個檔案的能力。針對多個資料夾下的多個檔案，以前的做法是先進行資料夾的遍歷，然後再進行各個資料夾目錄的讀取。今天在做測試的時候，居然發現spark原生就支援這樣的能力。

storm trident讀取kafka中資料

1. 建立kafka spout public TransactionalTridentKafkaSpout kafkaSpout(String topic) { StormConfig stormConfig = StormConfig.getIns

學習筆記-註解+反射讀取Bean中資料

我們經常有從資料來源（即javabean中拿資料）的需要，但不同的人對bean中內容的命名五花八門，但利用註解+反射可以寫出通用的提取資料的程式碼。假設需求是：從一個bean中取出NodeId, NodePId, NodeName三個成員。假如一個bean是這樣寫的：g

小例子：java利用poi讀取excel中資料並匯入資料庫

問題描述：資料夾下有若干excel檔案,檔名為10.教育局.xls 11.衛生院.xls ................有很多；中間的漢字為單位名稱，需要匯入資料庫，每個單位名稱要有一個單位id匹配；每個excel中有若干個sheet頁的名字,每個名字即為科

QT 串列埠QSerialPort + 解決接收資料不完整問題

類：QSerialPort 例程：Examples\Qt-5.9.1\serialport\terminal，該例子完美展示了qt串列埠收發過程，直接在這上面修改就可以得到自己的串列埠軟體。核心方法 //讀串列埠 QByteArray QSerialPo

文字分類問題中資料不均衡的解決方法的探索

資料傾斜是資料探勘中的一個常見問題，它嚴重影響的資料分析的最終結果，在分類問題中其影響更是巨大的，例如在之前的文字分類專案中就遇到類別文字集合嚴重不均衡的問題，本文主要結合專案實驗，介紹一下遇到資料不均衡問題時的常見解決方法。資料傾斜的解決方法 1.過取樣和欠

spark讀取hive表資料實操

環境:spark1.6 hive1.2.1 hadoop2.6.4 1.新增一下依賴包 spark-hive_2.10的新增為了能建立hivecontext物件 <dep

spark 讀取elasticsearch中資料不完整問題

相關推薦