1. 程式人生 > >分散式爬蟲之elasticsearch基礎1

分散式爬蟲之elasticsearch基礎1

一:搜尋引擎elasticsearch介紹

    Elasticsearch 是一個全文搜尋引擎,可以快速地儲存、搜尋和分析海量資料。

二:應用場景

  • 海量資料分析引擎
  • 站內搜尋引擎
  • 資料倉庫

三:安裝

首先把安裝包下載下來並解壓,然後執行 bin/elasticsearch(Mac 或 Linux)或者 bin\elasticsearch.bat (Windows) 即可啟動 Elasticsearch 了。

Elasticsearch 預設會在 9200 埠上執行,我們開啟瀏覽器訪問http://localhost:9200/ 

四:Elasticsearch 相關概念

Node 和 Cluster

Elasticsearch 本質上是一個分散式資料庫,允許多臺伺服器協同工作,每臺伺服器可以執行多個 Elasticsearch 例項。

單個 Elasticsearch 例項稱為一個節點(Node)。一組節點構成一個叢集(Cluster)。

Index

Elasticsearch 會索引所有欄位,經過處理後寫入一個反向索引(Inverted Index)。查詢資料的時候,直接查詢該索引。每個 Index (即資料庫)的名字必須是小寫。

Document

Index 裡面單條的記錄稱為 Document(文件)。許多條 Document 構成了一個 Index。Document 使用 JSON 格式表示

Type

Document 可以分組它是虛擬的邏輯分組,用來過濾 Document,類似 MySQL 中的資料表,MongoDB 中的 Collection。

Fields

即欄位,每個 Document 都類似一個 JSON 結構,它包含了許多欄位,每個欄位都有其對應的值,多個欄位組成了一個 Document,其實就可以類比 MySQL 資料表中的欄位。

類比傳統資料庫:

Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields