Elasticsearch+Mongo億級別數據導入及查詢實踐

阿新 • • 發佈：2018-01-28

參數配置 doc 時間 col lin 時區 start sta bulk

數據方案：

在Elasticsearch中通過code及time字段查詢對應doc的mongo_id字段獲得mongodb中的主鍵_id
通過獲得id再進入mongodb進行查詢

1，數據情況：

全部為股票及指數的分鐘K線數據（股票代碼區分度較高）
Elasticsearch及mongodb都未分片且未優化參數配置
mongodb數據量：

　　　　技術分享圖片

Elasticsearch數據量：

2，將數據從mongo源庫導入Elasticsearch

import time
from pymongo import MongoClient
from elasticsearch import 
 Elasticsearch
from elasticsearch.helpers import bulk
es = Elasticsearch()

conn = MongoClient(‘127.0.0.1‘, 27017)
db = conn.kline_db
my_set = db.min_kline
x = 1
tmp = []

#此處有個坑mongo查詢時由於數據量比較大時間較長需要設置遊標不過期：no_cursor_timeout=True
for i in my_set.find(no_cursor_timeout=True):
    x+=1
    #每次插入100000條
    if 
 x%100000 == 99999:
        #es批量插入
        success, _ = bulk(es, tmp, index=‘test_2‘, raise_on_error=True)
        print(‘Performed %d actions‘ % success)
        tmp = []
    if i[‘market‘] == ‘sz‘:
        market = 0
    else:
        market = 1
    #此處有個秒數時間類型及時區轉換
    tmp.append({"_index":‘test_2‘,"_type 
": ‘kline‘,‘_source‘:{‘code‘:i[‘code‘],‘market‘:market,                ‘time‘:time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(i[‘kline_time‘]/1000 - 8*60*60))                ,‘mongo_id‘:str(i[‘_id‘])}})

#將最後剩余在tmp中的數據插入
if len(tmp)>0:
    success, _ = bulk(es, tmp, index=‘test_2‘, raise_on_error=True)
    print(‘Performed %d actions‘ % success)

3，Elasticsearch+mongo查詢時間統計

import time
from pymongo import MongoClient
from elasticsearch import Elasticsearch
from elasticsearch.helpers import scan
from bson.objectid import ObjectId

#es連接
es = Elasticsearch()

#mongo連接
conn = MongoClient(‘127.0.0.1‘, 27017)
db = conn.kline_db  #連接kline_db數據庫，沒有則自動創建
my_set = db.min_kline

tmp = []

#計算運行時間裝飾器
def cal_run_time(func):
    def wrapper(*args,**kwargs):
        start_time = time.time()
        res = func(*args,**kwargs)
        end_time = time.time()
        print(str(func) +‘---run time--- %s‘ % str(end_time-start_time))
        return res
    return wrapper

@cal_run_time
def query_in_mongo(tmp_list):
    k_list = []
    kline_data = my_set.find({‘_id‘:{‘$in‘:tmp_list}})
    for k in kline_data:
        k_list.append(k)
    return k_list

@cal_run_time
def query_in_es():
    #bool多條件查詢 must相當於and
    body = {
        "query": {
            "bool": {
                "must": [{
                    "range": {#範圍查詢
                        "time": {
                            "gte": ‘2017-01-10 00:00:00‘,  # >=
                            "lte": ‘2017-04-12 00:00:00‘  # <=
                        }
                    }
                },
                    {"terms": {# == 或  in：terms 精確查詢
                        "code": [‘000002‘,‘000001‘]
                    }
                    }
                ]
            }

        }
    }

    #根據body條件記性查詢
    scanResp = scan(es, body, scroll="10m", index="test_2",doc_type="kline", timeout="10m")

    #解析結果字典並放入tmp列表中
    for resp in scanResp:
        tmp.append(ObjectId(resp[‘_source‘][‘mongo_id‘]))

    print(len(tmp))

    #--------------此處有個坑，直接使用search方法查詢到的結果集中最多只有10條記錄----------------
    # zz = es.search(index="test_2", doc_type="kline", body=body)
    # print(zz[‘hits‘][‘total‘])
    # for resp in zz[‘hits‘][‘hits‘]:
    #     tmp.append(ObjectId(resp[‘_source‘][‘mongo_id‘]))

query_in_es()

query_in_mongo(tmp)

運行結果如下：

第一行：查詢的doc個數：28320

第二行：es查詢所用時間：0.36s

第三行：mongo使用_id查詢所用時間 :0.34s

技術分享圖片

從結果來看對於3億多數據的查詢Elasticsearch的速度還是相當不錯的

※Elasticsearch主要的優勢在於可以進行分詞模糊查詢，所以股票K線並不是完全適應此場景。

※Elasticsearch+Mongo這個架構主要針對：使用mongo存儲海量數據，且這張表更新頻繁。

Elasticsearch+Mongo億級別數據導入及查詢實踐

參數配置 doc 時間 col lin 時區 start sta bulk 數據方案：在Elasticsearch中通過code及time字段查詢對應doc的mongo_id字段獲得mongodb中的主鍵_id 通過獲得id再進入mongodb進行查詢 1，數據情

Elasticsearch的腳本化數據導入導出

odin 安全 pen 技術 type 但是 awd 測試環境要求我用的ES的版本是2.4.1，由於沒有相應的命令實現數據的導入和導出，就是像mysql的那種mysqldump類似的指令。更苦逼的是，我們的生產和測試環境，還不能聯網，連ES的第三方的插件都沒有辦法

用logstash2.2.2把mysql數據庫中的數據導入到elasticsearch

second arc from string 導入 -s order mysqld ssl 1.解壓logstash2.2.2後臺，進入到etc目錄下，創建logstash-simple.conf，添加如下配置，根據自己的環境修改 input { jdbc {

009-elasticsearch【三】示例數據導入、URI查詢方式簡介、Query DSL簡介、查詢簡述【_source、match、must、should等】、過濾器、聚合

ase emp -h 集合 shard ken 結果 employ 5.1 一、簡單數據客戶銀行賬戶信息，json { "account_number": 0, "balance": 16623, "firstname": "Brad

MySQL數據導入到Mongo

use 需要數據庫 mage 測試 user mysq inf 數據導入背景：如題幹所述，需要將一份數據導入到mongo數據庫，減少項目依賴的數據源。解決方案：使用mongo自帶的mongoimport工具。首先在test庫裏創建一個空集合：【import_tes

Hive數據導入Elasticsearch

fields png txt ring 數據表 inf ESS handler def 一、準備jar包：可以去mvn倉庫下載 elasticsearch-hadoop-6.3.1.jar 二、進入hive添加jar hive>add jar /m

VBS將本地的Excel數據導入到SQL Server中

vbs將本地的excel數據導入到sql server中 VBS將本地的Excel數據導入到SQL Server中最近有個測試，需要將本地的Excel數據導入到SQL Server中，所以就寫了一個這個腳本，供有需要的同學進行參考。因為在此演示測試，所以準備的數據都比較簡單。我們準備將本地的Excel的A列插

ORACLE-數據導入導出-常規exp/imp以及數據泵方式

oracle博文說明【前言】：本文將通過個人口吻介紹有關Oracle數據庫導入導出相關知識，在目前時間點【2017年5月16號】下，所掌握的技術水平有限，可能會存在不少知識理解不夠深入或全面，望大家指出問題共同交流，在後續工作及學習中如發現本文內容與實際情況有所偏差，將會完善該博文內容。本文所

9.Solr4.10.3數據導入(post.jar方式和curl方式)

order multicore aps start publish 所有 padding enca 頭信息轉載請出自出處:http://www.cnblogs.com/hd3013779515/1.使用post.jar方式 java -Durl=http://192.16

13.5.SolrCloud集群使用手冊之數據導入

delete text -- bin 數據導入 charset strong cloud clean 轉載請出自出處:http://www.cnblogs.com/hd3013779515/ 1.使用curl命令方式 SolrCloud時會根據路由規則路由到各個shard。

PHPExcel將Excel數據導入數據庫

保存方法 ksh factory spa tao col 導入 div 1 <?php 2 //PHPExcel讀取導入Excel數據到數據庫(2003,2007通用)使用方法: 3 //先用excel2array（）方法將excel表中的數據存儲到數組，在

poi實現excel數據導入數據庫

form images img ges 文件數據處理書寫 Enctype 1.導入相應的jar包 2.創建上傳文件的表單，註意method="post" enctype="multipart/form-data" 3.主要代碼實現　　a.controller層獲得

如何將頁面上的數據導入excel中

進行 mil his spl 查找 inf css ie瀏覽器 art 網上關於頁面數據導入excel的文章很多，但是大部分都是關於 ActiveXObject 對象，可是ActiveXObject 對象是只支持IE的，可我連IE11也測試了，還是無法識別，又查到消息，好像

非table結構數據導入excel

exec turn .exe return command ide this win cells 現在大部分的數據都是ul li 展示，一下提供方法 <!DOCTYPE html><html> <head> <meta chars

Excel數據導入___你hold住麽（一）

excel表格雲平臺配置關閉流 ads div size parent 解析近期小編跟著團隊一起開發ITOO3.0高校雲平臺項目，當中的收獲是不言而喻滴，在項目中有個導入功能：導入學生信息；導入班級信息：導入教學樓信息等，在不知多

數據導入

tun port isnull 數據庫 ngs 插入 manager reat manage //做數據導入工作 private void ImportData(string fileName) { string t

利用Sqoop將MySQL數據導入Hive中

sqoop參考http://www.cnblogs.com/iPeng0564/p/3215055.htmlhttp://www.tuicool.com/articles/j2yayyjhttp://blog.csdn.net/jxlhc09/article/details/168568731.list da

Redis 數據導入導出，redis-dump命令

span 指定模糊 .json nbsp json bsp test 選擇安裝redis-dump 工具 yum install ruby rubygems ruby-devel gem install redis-dump -V 使用方法沒有密碼： # 導出

20161208xlVBA工作表數據導入Access

數據導入 true brush mdb class base 變量聲明返回 nothing Sub InsertToDataBase() Dim DataPath As String Dim SQL As String Const DataNa

C# DataSet數據導入Excel 修正版- .net FrameWork 4.0以上

except 一段 tab tac office mat tar reflect line 引入 Microsoft.Office.Interop.Excel.dll 格式：標題加了下劃線，單元格內容居中 1 using System; 2 using Syst

Elasticsearch+Mongo億級別數據導入及查詢實踐

相關推薦