python批量匯入資料進Elasticsearch

阿新 • • 發佈：2019-02-15

ES在之前的部落格已有介紹，提供很多介面，本文介紹如何使用python批量匯入。ES官網上有較多說明文件，仔細研究並結合搜尋引擎應該不難使用。

先給程式碼

#coding=utf-8
from datetime import datetime

from elasticsearch import Elasticsearch
from elasticsearch import helpers

es = Elasticsearch()

actions = []

f=open('index.txt')
i=1
for line in f:
    line = line.strip().split(' ')
    action={
        "_index":"image",
        "_type":"imagetable",
        "_id":i,
        "_source":{
                u"圖片名":line[0].decode('utf8'),
                u"來源":line[1].decode('utf8'),
                u"權威性":line[2].decode('utf8'),
                u"大小":line[3].decode('utf8'),
                u"質量":line[4].decode('utf8'),
                u"類別":line[5].decode('utf8'),
                u"型號":line[6].decode('utf8'),
                u"國別":line[7].decode('utf8'),
                u"採集人":line[8].decode('utf8'),
                u"所屬部門":line[9].decode('utf8'),
                u"關鍵詞":line[10].decode('utf8'),
                u"訪問許可權":line[11].decode('utf8')    
            }
        }
    i+=1
    actions.append(action)
    if(len(actions)==500):
        helpers.bulk(es, actions)
        del actions[0:len(actions)]

if (len(actions) > 0):
    helpers.bulk(es, actions)

每句話的含義還是很明顯的，這裡需要說幾點，首先是index.txt是以utf8編碼的，所以需要decode('utf8')轉換成unicode物件，並且“圖片名”前需要加u，否則ES會報錯

匯入的速度還是很快的，2000多條記錄每秒

python批量匯入資料進Elasticsearch

ES在之前的部落格已有介紹，提供很多介面，本文介紹如何使用python批量匯入。ES官網上有較多說明文件，仔細研究並結合搜尋引擎應該不難使用。先給程式碼 #coding=utf-8 from datetime import datetime from elasticse

Ne4j如何使用python批量匯入資料

說到neo4j的批量匯入資料，我想你一定會想到如下幾點： import tools load file neo4j driver for python/java… 前兩種必須要資料檔案存在檔案系統才可以執行。但是如果你的資料是以流資料的形式持續獲取的呢

python實現Phoenix批量匯入資料

官網文件： Phoenix provides two methods for bulk loading data into Phoenix tables: Single-threaded client loading tool for CSV formatted data

Elasticsearch —— bulk批量匯入資料

在使用Elasticsearch的時候，一定會遇到這種場景——希望批量的匯入資料，而不是一條一條的手動匯入。那麼此時，就一定會需要bulk命令！更多內容參考我整理的Elk教程 bulk批量匯入批量匯入可以合併多個操作，比如index,delete,update,create等等。也可以幫助從一個索引匯

Elasticsearch 批量匯入資料

前言可以非常方便地進行資料的多維分析，所以大資料分析領域也經常會見到它的身影，生產環境中絕大部分新產生的資料可以通過應用直接匯入，但是歷史或初始資料可能會需要單獨處理，這種情況下可能遇到需要匯入大量資料的情況這裡簡單分享一下批量匯入資料的操作方法與相關基礎，還有可能

ElasticSearch中批量匯入資料: _bulk命令

在使用Elasticsearch的時候，一定會遇到這種場景——希望批量的匯入資料，而不是一條一條的手動匯入。那麼此時，就一定會需要bulk命令！ bulk批量匯入批量匯入可以合併多個操作，比如index,delete,update,create等等。也可以

批量匯入資料（Mysql）報MySQL server has gone away 問題的解決方法

問題分析首先度娘：mysql出現ERROR : (2006, 'MySQL server has gone away') 的問題意思就是指client和MySQL server之間的連結斷開了。造成這樣的原因一般是sql操作的時間過長，或者是傳送的資料太大(例如使用inser

使用kettle來根據時間戳或者批次號來批量匯入資料，達到增量的效果。

1、Kettle是一款國外開源的ETL工具，純java編寫，可以在Window、Linux、Unix上執行，資料抽取高效穩定。下載圖形化介面的zip包格式的，直接解壓縮使用即可。安裝部署模式這裡不說了，自己可以根據自己的需求安裝為單機模式或者叢集模式。 Kettle的社群官

Solr批量匯入資料

1、從solr 4.10.3 的dist 下所需Jar包複製一份到 solr_home的索引庫（db1 是我自己新建的索引庫）下lib下如果沒有就新建 2、在索引庫（db1）的核心配置檔案（solrconfig.xml）中新增請求處理器。 <requestHand

將根據時間戳增量資料方案修改為根據批次號增量資料方案使用kettle來根據時間戳或者批次號來批量匯入資料，達到增量的效果。

1、之前寫過根據時間戳來增量資料，時間戳增量資料存在一定的缺點，就是如果開啟自動的話，以後如果因為某個外在因素出錯了，那麼這個開始時間和結束時間不好控制，那麼就可能造成一些其他資料量不準的情況，但是根據批次號不會出現這個問題：使用kettle來根據時間戳或者批次號來批量匯入資料，達到增量的效果。

python 批量JSON資料，插入資料庫

newList=[{"link":"https://www.1.com/","ga_tag":"xvideos","image":"http://static.2.mobi/views/images/xvideos.png?x-oss-process=style/120"},{"link":"htt

react下批量匯入資料無法覆蓋原資料中的input值的問題（利用antd design外掛）

最近在寫一個需求，要求批量匯入資料後要把原來的列表資料全部覆蓋，包括匯入的資料與原來的列表資料重複的值。如果匯入的資料中與原來列表的資料沒有重複的值，那就重新setState一下就好；那如果列表中有資料A，並且A的一個屬性通過input編輯過，此時再批量匯入資料包含資料A的話，那就不能覆蓋已經

C#解析Mysql的sql指令碼實現批量匯入資料

最近老大對我們做的資料匯入功能意見挺大，資料量一上來，匯入時間就很長，嚴重影響使用者體驗。因此，不得不花時間搗鼓了一下資料匯入的效能優化問題原始程式碼： MySqlCommand command = new MySqlCommand(); command.Connection = conn

Python—批量建立資料夾001,002，...

建立資料夾001，002,003，。。。 import os def creDir(): ''' 數字前補0建立資料夾002,003... ''' root = 'E:\\資料集\\Gaze\\' i = 1 for j in

Java實現Excel批量匯入資料

Excel的批量匯入是很常見的功能，這裡採用 Jxl實現，資料量或樣式要求較高可以採用 poi 框架環境：Spring + SpringMvc（註解實現）首先匯入依賴jar包 <dependency> <groupId>ne

HBase利用bulk load批量匯入資料

OneCoder只是一個初學者，記錄的只是自己的一個過程。不足之處還望指導。看網上說匯入大量資料，用bulk load的方式效率比較高。bulk load可以將固定格式的資料檔案轉換為HFile檔案匯入，當然也可以直接匯入HFile檔案。所以

EXCEL批量匯入資料MVC

using NPOI.HSSF.UserModel; //批量匯入的頁面Action public ActionResult ExcelAppendData() { return View(); } /// /// 匯入Excel方法 /// 作者

用java實現從txt文字檔案批量匯入資料至資料庫

今天同事讓我準備一個專案的測試資料，要向一個表中插入上千條記錄，並且保證每條記錄內容不同，如果用手工一條一條插入肯定是不可能，也不會有哪個SB去做這樣的事，我最開始想到了用迴圈，但要求插入的記錄內容不能相同，用迴圈實現比較麻煩，於是我想到了將記錄從文字檔案匯入至資料庫（其實

Python批量匯入圖片生成PowerPoint 2007+檔案

說明：本文是“Python批量爬取微信公眾號文章中的圖片”的後續文章，用來把從公眾號批量抓取的圖片還原為PowerPoint 2007檔案。使用方法：安裝擴充套件庫python-pptx，然後把上文中抓取的圖片和本程式放在同一個資料夾。 import osimport pptxfrom pptx.uti

簡單三層使用DataTable向資料庫表批量匯入資料---向SqlServer一張表中匯入資料

向資料庫的一張表中新增資料，可以採用單個新增，即一條資料、一條資料的新增；也可以採用批量匯入，依次將好些條資料寫入資料庫的一張表中。文字藉助例項《新增系列資訊》講解一種向資料庫批量匯入資料的方法。 1.介面設計觀看一下新增系列資訊部分的介面設計：本

python批量匯入資料進Elasticsearch

相關推薦