1. 程式人生 > >結構化資料、非結構化資料、半結構化資料

結構化資料、非結構化資料、半結構化資料

結構化資料、非結構化資料以及半結構化資料是對儲存形式的一種資料型別分析,有助於企業細分行業案例,幫助儲存合作伙伴更好地解決應用實施方案。

定義
結構化資料,即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料;
非結構化資料,不方便用資料庫二維邏輯表來表現的資料。

儲存格式的區別
關係資料庫 — 結構定義不易改變,資料定長。
非結構化資料庫 — 是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫。

應用場景
結構化資料,簡單來說就是資料庫。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS資料庫;教育一卡通;政府行政審批;其他核心資料庫等。這些應用需要哪些儲存方案呢?基本包括高速儲存應用需求、資料備份需求、資料共享需求以及資料容災需求。

非結構化資料,包括視訊、音訊、圖片、影象、文件、文字等形式。具體到典型案例中,像是醫療影像系統、教育視訊點播、視訊監控、國土GIS、設計院、檔案伺服器(PDM/FTP)、媒體資源管理等具體應用,這些行業對於儲存需求包括資料儲存、資料備份以及資料共享等。

半結構化資料,包括郵件、HTML、報表、資源庫等等,典型場景如郵件系統、WEB叢集、教學資源庫、資料探勘系統、檔案系統等等。這些應用對於資料儲存、資料備份、資料共享以及資料歸檔 等基本儲存需求。

相關常見資料庫

Mongodb,分散式文件儲存資料庫,由C++語言編寫,旨在為WEB應用提供可擴充套件的高效能資料儲存解決方案。MongoDB是一個高效能,開源,無模式的文件型資料庫,是當前NoSql資料庫中比較熱門的一種。它在許多場景下可用於替代傳統的關係型資料庫或鍵/值儲存方式。

MongoDB已經在多個站點部署,其主要場景如下:

1) 網站實時資料處理。它非常適合實時的插入、更新與查詢,並具備網站實時資料儲存所需的複製及高度伸縮性。

2) 快取。由於效能很高,它適合作為資訊基礎設施的快取層。在系統重啟之後,由它搭建的持久化快取層可以避免下層的資料來源過載。

3) 高伸縮性的場景。非常適合由數十或數百臺伺服器組成的資料庫,它的路線圖中已經包含對MapReduce引擎的內建支援。

不適用的場景如下:

1) 要求高度事務性的系統。

2) 傳統的商業智慧應用。

3) 複雜的跨文件(表)級聯查詢。

HBase 是一個分散式的、面向列的開源資料庫,該技術來源於 Fay Chang 所撰寫的Google論文”Bigtable:一個結構化資料的分散式儲存系統。 HBase是Apache的Hadoop專案的子專案。HBase不同於一般的關係資料庫,它是一個適合於非結構化資料儲存的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。
/*
轉載文章
原文地址:

https://blog.csdn.net/xuanjiewu/article/details/70171463
*/