Elastic search（2）搜尋包含 scroll 與scan 的使用

阿新 • • 發佈：2018-12-19

基礎格式

GET /_search
{
    "query": YOUR_QUERY_HERE
}

空查詢

GET /_search
{
    "query": {
        "match_all": {}
    }
}

查詢子句

{
    QUERY_NAME: {
        ARGUMENT: VALUE,
        ARGUMENT: VALUE,...
    }
}

{
    "match": {
        "tweet": "elasticsearch"
        }
}

合併多子句
- 葉子子句(leaf clauses
  
  )(比如match子句)用以在將查詢字串與一個欄位(或多欄位)進行比較
- 複合子句(compound)用以合併其他的子句。例如，bool子句允許你合併其他的合法子句，must，must_not或者should，如果可能的話：
```
{
    "bool": {
        "must":     { "match": { "tweet": "elasticsearch" }},
        "must_not": { "match": { "name":  "mary" }},
        "should":   { "match": { "tweet": "full text" }}
    }
}
 
```
查詢與過濾
- 查詢一般條件為 match 該會計算相關的sorce
- 過濾條件為Term 自會根據索引效能非常高不在意裡面具體欄位

排序

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : { "term" : { "user_id" : 1 }}
        }
    },
    "sort": [
        { "date":   { "order": "desc" ,"mode":"min"}},
        { "_score": { "order": "desc" }}
    ]}

掃描和滾屏

scroll
- 一個滾屏搜尋允許我們做一個初始階段搜尋並且持續批量從Elasticsearch里拉取結果直到沒有結果剩下。這有點像傳統資料庫裡的cursors（遊標）。
  
  滾屏搜尋會及時製作快照。這個快照不會包含任何在初始階段搜尋請求後對index做的修改。它通過將舊的資料檔案儲存在手邊，所以可以保護index的樣子看起來像搜尋開始時的樣子。
scan
- 深度分頁代價最高的部分是對結果的全域性排序，但如果禁用排序，就能以很低的代價獲得全部返回結果。為達成這個目的，可以採用scan（掃描）搜尋模式。掃描模式讓Elasticsearch不排序，只要分片裡還有結果可以返回，就返回一批結果。為了使用scan-and-scroll（掃描和滾屏），需要執行一個搜尋請求，將search_type 設定成scan，並且傳遞一個scroll引數來告訴Elasticsearch滾屏應該持續多長時間。

使用

  #!/usr/bin/env python
  # -*- coding: utf-8 -*-
  
  import json
  import rfc3339
  from datetime import datetime
  import requests
  import time
  
  start_time = rfc3339.rfc3339(datetime.strptime("2018-11-02 12:05:00", "%Y-%m-%d %H:%M:%S"))
  end_time = rfc3339.rfc3339(datetime.strptime("2018-11-02 12:35:00", "%Y-%m-%d %H:%M:%S"))
  print(start_time)
  print(end_time)
  def make_query():
      # query = '"query":{"bool": {"must":{"match":{"message":"百度OCPC渠道 - 100011 - 啟用回撥成功"}}}}'
      q1 = {
          "query": {
              "bool": {
                  "filter": {
                      "bool": {
                          "must": [{
                              "range": {
                                  "@timestamp": {
                                      "gte": start_time,
                                      "lte": end_time
                                  }
                              }
                          },
                          ]
                      }
                  },
                  "must":[{
                      "term":{
                          "act_id":"ad_trace"
                      },
                      "term":{
                          "stat":"297"
                      }}]
              }
          },
          "size": 1000
      }
      # return query
      return json.dumps(q1)
  
  
  def main(host, tag):
      url = "http://" + host + "/" + tag + "/_search?scroll=10m"
      print(url)
      query_data = make_query()
      print(query_data)
      headers = {'Content-Type': 'application/json'}
      file = open("bak.txt", "w+")
      loop_times = 1
      loop_data_times = 0
      try:
          response = requests.get(url, data=query_data.encode('utf-8'), headers=headers)
          response_data = json.loads(response.text)
          print(response_data)
          total_num = response_data["hits"]["total"]
          datas = response_data["hits"]["hits"]
          scroll_id = response_data["_scroll_id"]
          for d in datas:
              str_d = json.dumps(d)
              file.write(str_d)
              file.write("\n")
              loop_data_times += 1
              print(loop_data_times)
          loop = True
          while loop:
              loop_times += 1
              url2 = "http://" + host  + "/_search/scroll"
              query = {
                  "scroll": "10m",
                  "scroll_id": '{scroll_id}'.format(scroll_id=scroll_id)
              }
              print("scroll_id ", scroll_id)
              query_data2 = json.dumps(query)
              response = requests.get(url2, data=query_data2.encode('utf-8'), headers=headers)
              print("response.text ", response.text)
              response_data = json.loads(response.text)
              scroll_data = response_data["hits"]["hits"]
              if len(scroll_data) == 0:
                  break
              for d in scroll_data:
                  str_d = json.dumps(d)
                  file.write(str_d)
                  file.write("\n")
                  loop_data_times += 1
                  print(loop_data_times)
  
          print("total_num ", total_num)
          print("loop_times ", loop_times)
      except Exception as e:
          print(111)
          print(e)
  
  
  if __name__ == "__main__":
      master_host = "XXXX:9200"
      tag_name = "hwsjus_frontend-2018.11.02"
      main(master_host, tag_name)

Elastic search（2）搜尋包含 scroll 與scan 的使用

基礎格式 GET /_search { "query": YOUR_QUERY_HERE } 空查詢 GET /_search { "query": { "match_all": {} } } 查詢子句 { QUERY_NAME: {

Elastic search（1）基礎命令

索引分片設定 PUT /_template/shard_template { "order" : 1, "index_patterns": [ "dq2_orm*", "dq2_dq_orm*", "d

search（2）- elasticsearch scala終端：elastic4s

上篇談到：elasticsearch本身是一個完整的後臺系統，對其的操作使用是通過終端api進行的。elasticsearch本身提供了多種程式語言的api，包括java的esjava。而elastic4s是一套基於esjava之上的scala api。先看看scala 終端 El

Jmeter筆記（2）插件下載與安裝

支持 ext ref CP 圖片 .org 服務器性能 fun png 新的版本提供了插件管理器，但是需要自行下載安裝。下載路徑： https://jmeter-plugins.org/downloads/all/ 放在lib/ext目錄下，然後重啟Jmeter，會在

指針和引用（2）指針常量與常量指針

知識點 getc 什麽 TE 歷史語句 return tchar 面試 1.知識點 1.1指針常量——指針類型的常量（1）指針常量本質是常量，指針用來說明常量的類型，表示該常量是一個指針類型的常量。（2）在指針常量中，指針的值不可變，即始終指向同一個地址。（3）但指

吳恩達《深度學習》第五門課（2）自然語言處理與詞嵌入

星級技術 ima lac 個數應該 ras 時有根據 2.1詞匯表征（1）使用one-hot方法表示詞匯有兩個主要的缺點，以10000個詞為例，每個單詞需要用10000維來表示，而且只有一個數是零，其他維度都是1，造成表示非常冗余，存儲量大；第二每個單詞表示的向量相

DSL 系列（2） - 外掛的論述與實現

前言本文主要探討基於 DSL（domain specific language）之上的外掛設計，他們是領域的附屬，為領域提供額外的服務，但領域不依賴於他們。 1. 論述領域應當儘可能地去專注他的核心業務規則，應當儘可能地與其他輔助性的程式碼解耦，一些通用的功能可以耦合進框架或者設計為中介軟體；但

Maven學習總結（2）-Maven的安裝與配置、eclipse整合Maven

Maven的安裝與配置一、下載官網地址：http://maven.apache.org/download.cgi 二、安裝將下載好的壓縮包解壓到D盤三、配置 1.環境變數配置（1）在“環境變數-系統變數”中新增一行：變數名為MAVEN

PHP環境搭建（2）----個人環境設定與yum安裝依賴

1. #yum install man vim wgettelnet; #cp /etc/vimrc ~/.vimrc 在.vimrc檔案中最好兩行插入 syntax=on set nu 這樣設定

Why Java Sucks and C# Rocks（2）：基礎型別與物件

既然已經談過這次語言比較的意義與目的，而完整的幻燈片和錄音也已經放出，那麼接下來自然是詳細討論了。在這篇文章中，我會對兩個語言的基本特徵進行簡單描述，並主要討論兩者對於基礎型別的處理方式。在我看來，Java語言對於基礎型別的處理方式，並不如C#中值型別般妥當。如果您有任何覺得不妥或是想要補充的意見，請不吝回覆

GitHub學習（四）：Phpstorm中的git使用（2）--拉取工程與composer使用

之前我在一臺電腦上將一份不完整的工程儲存在github上，現在我回到家中，換了一臺電腦，接下來就是要用另一臺電腦拉取github中的工程，並用composer把整個工程的依賴檔案什麼亂七八糟的檔案都下下好。 1.首先開啟phpstorm，按圖

Python+OpenCV學習（2）---影象的合併與拆分

利用python學習OpenCV，個人感覺比較方便。函式的形式與C++基本相同，所以切換過來還是比較好的，對於像我這種對python不太熟練的人，使用python的整合開發環境PyCharm進行學習，

（2）香橙派+apache2與php+天貓精靈=自建平臺語音支援--香橙派作業系統安裝

導航連結（1）香橙派+apache2與php+天貓精靈=自建平臺語音支援--前言（2）香橙派+apache2與php+天貓精靈=自建平臺語音支援--香橙派作業系統安裝（3）香橙派+apache2與php+天貓精靈=自建平臺語音支援--香橙派環境配置（4）香橙派+apache2

Keras深度學習框架學習筆記系列（2）- Keras的安裝與配置

這裡主要講述Ubuntu16.04環境下Keras的安裝與配置，安裝過程基本上參考了Keras官方中文文件中的安裝說明，由於我只使用了CPU進行加速，因此忽略了CUDA開發環境及相應加速庫的安裝過程，

ASP.NET Core on K8S深入學習（2）部署過程解析與Dashboard

上一篇《K8S叢集部署》中搭建好了一個最小化的K8S叢集，這一篇我們來部署一個ASP.NET Core WebAPI專案來介紹一下整個部署過程的執行機制，然後部署一下Dashboard，完成視覺化管理。本篇已加入了《.NET Core on K8S學習實踐系列文章索引》，更多內容請到索引中檢視。一、部署示

自定義樹（2）：二分搜尋樹（Binary Search Tree）

二分搜尋樹也是一種二叉樹。二分搜尋樹的遍歷：層序遍歷圖解：刪除任意元素圖解：程式碼實現： packa

Elasticsearch 搜尋模組之Cross Cluster Search（跨叢集搜尋）

Cross Cluster Search簡介 cross-cluster search功能允許任何節點作為跨多個群集的federated client（聯合客戶端），與tribe node不同的是cross-cluster search節點並不會加入remote cluster（遠端叢集），而是用輕量的方法

Elastic 基礎篇（2）

1、基本概念 1）Elastic和RDMS對比 RDMS Elastic 資料庫database 索引index 表table 型別type 行row 文件document

lucene 搜尋功能介紹（2）

準備工作：資料，生成索引 private Integer[] ids = {1,2,3}; private String[] citys = {"beijing","shanghai","guangzh

基礎資料結構與演算法實現（2）—二叉搜尋樹BST

import java.util.LinkedList; import java.util.Queue; public class BST <E extends Comparable<E>> { private c

Elastic search（2）搜尋 包含 scroll 與scan 的使用

相關推薦

Elastic search（2）搜尋包含 scroll 與scan 的使用