淺談PipelineDB系列一: Stream數據是如何寫到Continuous View中的

阿新 • • 發佈：2017-07-10

out 物理獲取 handler ddr fun .cn node xpl

PipelineDB Version:0.9.7

PostgreSQL Version:9.5.3

PipelineDB的數據處理組件：

技術分享

從上圖來看主要就是pipeline_streams,stream_fdw,Continuous View,Transform。

其實就是運用了Postgres的FDW功能來實現的stream功能。

從數據庫也能看到這個FDW

pipeline=# \des
                  List of foreign servers
       Name       |      Owner      | Foreign-data wrapper
------------------+-----------------+----------------------
 pipeline_streams | unknown (OID=0) | stream_fdw
(1 row)

數據流轉入下圖

技術分享

可以看到數據流轉都是通過ZeroMQ來實現的(前面的版本0.8.2之前是通過TupleBuff來實現)

數據插入到Stream後然後調用ForiegnInsert，插入到初始化的IPC裏面去，在數據庫目錄下面有個pipeline/zmq

TransForm其實就是把數據的dest指向了Stream，數據庫默認有個pipeline_stream_insert其實這個是個Trigger，把tuple再扔到目標stream裏面。

或者你可以自己寫UDF，就是寫個trigger，數據可以寫到表或者別的FDW裏面，或者是自己封裝的消息隊列IPC都沒問題，這塊自由發揮的空間就比較大。

首先我們來創建個STREAM跟CV

pipeline=# create stream my_stream(x bigint,y bigint,z bigint);
CREATE STREAM
pipeline=# create continuous view v_1 as select x,y,z from my_stream;
CREATE CONTINUOUS VIEW
pipeline=#

插入一條數據:

pipeline=# insert into my_stream(x,y,z) values(1,2,3);
INSERT 0 1
pipeline=# select * from v_1;
 x | y | z
---+---+---
 1 | 2 | 3
(1 row)

pipeline=#

數據插入到CV中了，我們現在來看看PipelineDB是如何插入的。

上面有介紹了Stream就是個FDW。我們來看看他的handler(source:src/backend/pipeline/stream_fdw.c)

/*
 * stream_fdw_handler
 */
Datum
stream_fdw_handler(PG_FUNCTION_ARGS)
{
	FdwRoutine *routine = makeNode(FdwRoutine);

	/* Stream SELECTS (only used by continuous query procs) */
	routine->GetForeignRelSize = GetStreamSize;
	routine->GetForeignPaths = GetStreamPaths;
	routine->GetForeignPlan = GetStreamScanPlan;
	routine->BeginForeignScan = BeginStreamScan;
	routine->IterateForeignScan = IterateStreamScan;
	routine->ReScanForeignScan = ReScanStreamScan;
	routine->EndForeignScan = EndStreamScan;

	/* Streams INSERTs */
	routine->PlanForeignModify = PlanStreamModify;
	routine->BeginForeignModify = BeginStreamModify;
	routine->ExecForeignInsert = ExecStreamInsert;
	routine->EndForeignModify = EndStreamModify;

	routine->ExplainForeignScan = NULL;
	routine->ExplainForeignModify = NULL;

	PG_RETURN_POINTER(routine);
}

主要是關註Streams Inserts這幾個函數.

每個worker process啟動的時候都會初始化一個recv_id，其實這個就是ZeroMQ的ID

數據會發送到對應的隊列裏面去，worker process就去這個IPC裏面去獲取數據

source:src/backend/pipeline/ipc/microbath.c

void
microbatch_send_to_worker(microbatch_t *mb, int worker_id)
{
    ......

			worker_id = rand() % continuous_query_num_workers;
		}
	}

	recv_id = db_meta->db_procs[worker_id].pzmq_id;

	microbatch_send(mb, recv_id, async, db_meta);
	microbatch_reset(mb);
}

首先是獲取worker_id 這個是隨機獲取的一個worker進程。stream數據隨機發到一worker process裏面去了

recv_id這個就是從初始化的IPC隊列獲取ID，數據就發送到該隊列裏面

最後就調用

pzmq_send(recv_id, buf, len, true)

數據就推送到了IPC中了。

(gdb) p	recv_id
$12 = 1404688165
(gdb)

這部分就是數據生產者部分。

下面就是數據消費者CV

數據接受還是通過ZMQ的API來接受的

這個主要是worker process來幹活的

srouce:src/backend/pipeline/ipc/pzmq.c&reader.c

(gdb) p *zmq_state->me
$8 = {id = 1404688165, type = 7 ‘\a‘, sock = 0x1139ba0, addr = "ipc:///home/pipeline/db_0.9.7/pipeline/zmq/1404688165.sock", ‘\000‘ <repeats 965 times>}
(gdb)

可以看到這個數據是從1404688165裏面獲取的，並且把IPC的addr也給出來了，這個就是我數據庫目錄

獲取到是個buf，然後unpack，從消息裏面獲取到對應的Tuple.

獲取到了tuple後，然後就找所有的CV跟這個stream相關的target。遍歷他們，然後執行CV中對應的SQL。

執行流程跟標準SQL差不多也是初始化執行計劃然後ExecutePlan然後endplan 。

數據會到Combiner裏面，如果是AGG還會有一系列操作的。

如果數據符合CV的SQL邏輯，那麽數據就插入到對應的物理表。

這就是Stream的一個簡單的工作原理。

謝謝

淺談PipelineDB系列一: Stream數據是如何寫到Continuous View中的

out 物理獲取 handler ddr fun .cn node xpl PipelineDB Version:0.9.7 PostgreSQL Version:9.5.3 PipelineDB的數據處理組件：從上圖來看主要就是pipeline_streams,

淺談軟件測試之數據校驗

註冊 req 地方數據 from 怎麽辦完整 tab 大洋註明:DBCheck即數據庫數據校驗;一．為什麽需要DBCheck?你同學去年向你借了一萬大洋，今天你打電話想他還錢給你，老同學很大方的給你說馬上給你打到銀行卡上。一會兒，回電話給你說，錢已經全部打到你銀行卡了

數據挖掘方法系列（一）數據探索

引用手工錄入如果操作員開始區間和運用基礎屬性為什麽要做數據探索？了解數據的類型和人與人溝通過程中了解對方的性別一樣重要，人與人溝通知道對方的性別才能用不同的方式與其溝通，不同的數據類型能做的操作也不一樣。探索數據探索哪些？數據的類型和數據的質量。數據類型分

Mybatis Collection查詢集合只出現一條數據

img int ron src per rda entity 級聯如果 1、原因如果兩表聯查，主表和明細表的主鍵都是id的話，明細表的多條只能查詢出來第一條。 2、解決辦法級聯查詢的時候，主表和從表有一樣的字段名的時候，在mysql上命令查詢是沒問

HTML5 進階系列：indexedDB 數據庫

連接數據庫 function request html5 客戶端前言在 HTML5 的本地存儲中，有一種叫 indexedDB 的數據庫，該數據庫是一種存儲在客戶端本地的 NoSQL 數據庫，它可以存儲大量的數據。從上篇：HTML5 進階系列：web Storage ，我們知道

1Python全棧之路系列之MySQL數據庫基本操作

大型數據庫數據庫管理數據庫軟件程序員 sql數據庫 Python全棧之路系列之MySQL數據庫基本操作MySQL數據庫介紹MySQL是一種快速易用的關系型數據庫管理系統(RDBMS)，很多企業都在使用它來構建自己的數據庫。MySQL由一家瑞典公司MySQL AB開發、運營並予以支持。

從0到1構建大數據生態系列1：數據蠻荒中的拓荒之舉

市場需求 ont 應用 load 工作網站做事做到實施緣起我們都知道，當前大數據的需求基本屬於遍地開花。無論是帝都、魔都，還是廣州、深圳，亦或是全國其他各地，都在搞大數據；不管是不到百人的微小公司，還是幾百上千人的中型公司，亦或是上萬的大型公司，都在需求

項目優化經驗分享（一）數據自己主動匹配

als 主動 options option reg shee total tomat 功能從今天開始。我將和大家分享一下近期經手項目的優化經驗。今天我們分享的內容是：自己主動匹配！引言：輸入框數據自己主動匹配大家應該非常熟悉，當我們在使用百度或go

Redis系列三 Redis數據類型

二進制 mach red hashtable 存儲對象大數據序列化它的對象一、Redis的五大數據類型　　1、String（字符串）　　　　string是redis最基本的數據類型，可以理解成與 Memached一模一樣的數據類型，一個key對應一個valu

MySQL取上一條數據的某個字段值

arch oracle ble led ora 定義 declare 自定義 default SELECT @lagfield ,@lagfiled := targField, t.*FROM TABLE t, (SELECT @lagfield := ‘‘) r其中tar

【原創】淺談webview（一）——驚鴻一瞥

版本開發 spa 占用混合原創大量功能性內存泄漏眾所周知，APP開發過程中經常會通過webview實現HTML5(H5)的渲染，實現H5和Native的混合開發(Hybrid Development)。Hybrid Development可以加速

MYSQL的學習(一)Mysql數據庫

relation 使用 size strong 什麽 bms 表格書籍訪問 1.什麽是數據庫? 數據庫(database)是按照數據結構來組織.存儲和管理數據的倉庫 2.關系型數據庫管理系統(Relational Database Management Syste

鏈接怎麽設置點擊一次..數據庫點擊量加1

get href ati += bsp save 參數 this 一次點擊一個鏈接時要將數據庫中的相對應的訪問數量+1的話，只能在當前頁面寫一個方法用js去訪問通過js獲取要點擊的鏈接的參數用ajax將參數傳到控制器，在控制器中獲取傳過來的參數查找數據庫中是否有記

[CentOS 7系列]遠程數據同步

rsync Rsync命令是一個遠程數據同步工具，可通過網絡快速同步多臺主機間的文件。它在同步文件的同時，可以保持原來文件的權限、時間、軟硬鏈接等附加信息，也可以做增量的拷貝。支持通過ssh方式來傳輸文件，這樣其保密性會非常好。rsync備份主要分為三種方式，一是本地到本地的備份，二是本地到網絡的備份

一、數據類型和運算符——6-直接量

tro ont span size text spa pan str -a 6-直接量 1.直接量的類型 2.直接量的賦值一、數據類型和運算符——6-直接量

『校友企業“雲”系列專題報道』數據堂的雲中綻放

大數網上小姐靈活性最新不同的競爭力 cnblogs 團隊話說某天一女生去商場購物，看中一條裙子甚是喜歡，欲購買。顧客：你好，我想買這件裙子，我是你們品牌的會員，卡號XXX。導購：您好，程小姐！您是我們線上商場的老顧客，曾在不同的購物網站多次購買我們的服裝

算法導論筆記——第十~十一章數據結構（一）散列

發生情況要求 sub 裝載 ted 因子 let 完全第十章基本數據結構棧：可由數組表示隊列：可由數組表示指針和對象：可由多數組表示。可用棧表示free list 有根數：　　二叉樹：左右孩子　　分支無限制：左孩子右兄弟表示法第十一章散列表數組：

plupload如何刪除一條數據

ole 註意 += fun sadd 描述 del 錯誤發現 FilesRemoved用了發現不成功，刪除圖片這麽重要怎能如此看到老外提的另一個問題發現這個問題解決辦法，特此備註以供不會的童鞋參考 uploader.bind(‘FilesAdded‘, fun

SpringBoot文檔翻譯系列——29.SQL數據源

tor _exit 開始 pre 細粒度 osi connect uniq 3.6 原創作品，可以轉載，但是請標註出處地址：因為需要使用到這方面內容，所有對這一部分進行了翻譯。 29 使用SQL數據源　　SpringBoot為SQL數據源提供了廣泛支持，從直接使用Jd

同表復制一條數據，除主鍵外，其他值相同

例子 cnblogs 實現主鍵 nbsp src where code 說明越深入的學習，越覺得一種知識的深厚底蘊。　　平時使用SQL語言中的Insert的方式是：insert into Table value()。今天使用SQL的Insert語句時。實現一個功能，

淺談PipelineDB系列一: Stream數據是如何寫到Continuous View中的

相關推薦