1. 程式人生 > >大資料基本概念(1)

大資料基本概念(1)

結構化、非結構化、半結構化資料:
1. 結構化資料
能夠用資料或統一的結構表示,我們稱之為結構化資料,如數字、符號。傳統的關係資料模型、行資料,儲存於資料庫,可用二維表結構表示。
2. 非結構化資料
包括所有格式的辦公文件、文字、圖片、XML、HTML、各類報表、影象和音訊/視訊資訊等等
3. 半結構化資料
就是介於完全結構化資料(如關係型資料庫、面向物件資料庫中的資料)和完全無結構的資料(如聲音、影象檔案等)之間的資料,HTML文件就屬於半結構化資料。它一般是自描述的,資料的結構和內容混在一起,沒有明顯的區分。

大資料特點
1.Volume(大量):資料量大,包括採集、儲存和計算的量都非常大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

2.Variety(多樣):種類和來源多樣化。包括結構化、半結構化和非結構化資料,具體表現為網路日誌、音訊、視訊、圖片、地理位置資訊等等,多型別的資料對資料的處理能力提出了更高的要求。

3.Value(價值):資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。

4.Velocity(高效):資料增長速度快,處理速度也快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法儘可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。

5.Veracity(真實性):資料的準確性和可信賴度,即資料的質量。

CAP理論
CAP原則又稱CAP定理,指的是在一個分散式系統中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分割槽容錯性),三者不可得兼。

CAP原則是NOSQL資料庫的基石。Consistency(一致性)。 Availability(可用性)。Partition tolerance(分割槽容錯性)。

分散式系統的CAP理論:理論首先把分散式系統中的三個特性進行了如下歸納:
一致性(C):在分散式系統中的所有資料備份,在同一時刻是否同樣的值。(等同於所有節點訪問同一份最新的資料副本)
可用性(A):在叢集中一部分節點故障後,叢集整體是否還能響應客戶端的讀寫請求。(對資料更新具備高可用性)
分割槽容忍性(P):以實際效果而言,分割槽相當於對通訊的時限要求。系統如果不能在時限內達成資料一致性,就意味著發生了分割槽的情況,必須就當前操作在C和A之間做出選擇。

資料倉庫
資料倉庫是決策支援系統(dss)和聯機分析應用資料來源的結構化資料環境。資料倉庫研究和解決從資料庫中獲取資訊的問題。資料倉庫的特徵在於面向主題、整合性、穩定性和時變性。

資料庫和資料倉庫的區別:
邏輯層面/概念層面:
資料庫和資料倉庫其實是一樣的或者及其相似的,都是通過某個資料庫軟體,基於某種資料模型來組織、管理資料。但是,資料庫通常更關注業務交易處理(OLTP),而資料倉庫更關注資料分析層面(OLAP),由此產生的資料庫模型上也會有很大的差異。資料庫通常追求交易的速度,交易完整性,資料的一致性,等等,在資料庫模型上主要遵從正規化模型(1NF,2NF,3NF,等等),從而儘可能減少資料冗餘,保證引用完整性;而資料倉庫強調資料分析的效率,複雜查詢的速度,資料之間的相關性分析,所以在資料庫模型上,資料倉庫喜歡使用多維模型,從而提高資料分析的效率。
資料庫大多都是讀寫優化的,難以良好支援大量資料的讀(查詢),而資料倉庫是隻讀優化的資料庫,只要支援大量複雜資料的查詢就可以了。
資料庫:MySQL, Oracle, SqlServer等
資料倉庫 :AWS Redshift, Greenplum, Hive等
資料庫與資料倉庫的區別由知乎資料庫 與 資料倉庫的本質區別是什麼?問題下的回答轉載