1. 程式人生 > >大數據學習之一——了解簡單概念

大數據學習之一——了解簡單概念

聚類 日常 ces 數據分析 適合 讀寫 流轉 聯機事務處理 推薦系統

1.大數據是什麽?特點

大數據:是一種規模非常大的,在分析、管理、存儲和獲取等方面都超出了傳統的數據庫軟件所具有的功能處理範圍的巨大數據的調集。

特征:1.海量的數據規模(Volume)

2.數據類型多種多樣(Variety)

3.快速的數據流轉和動態的數據體系(Velocity)

4.巨大的數據價值(Value)

2.數據倉庫是什麽?Datawarehouse

數據倉庫,英文名稱Data Warehouse,是面向主題的、集成的、穩定的。面向時間的數據集合。是單個數據存儲。

數據倉庫中有OLTP和OLAP。

OLTP(on-line transaction processing)聯機事務處理主要是執行基本日常的事務處理。例如銀行交易。特點:

①實時性要求高。②數據量不是很大,及時做數據處理與轉移。③對確定性的的數據進行存取。④高並發。

OLAP(on-line analytical processing)是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,並且提供直觀易懂的查詢結果。例如復雜的動態的報表系統。

①實時性要求不高。②數據量大,動態查詢。③將用戶所有關心的維度數據,存入對應數據平臺。

3. ELT(Extract Transform Load):抽取、轉換、加載。

ETL工作的實質就是從各個數據源提取數據,對數據進項轉換,並最終加載填充數據到數據倉庫維度建模後的表中。

①抽取:根據數據倉庫主題、主題域確定需要從應用數據庫中提取的數。

②轉換:指對提取好了的數據的結構進行轉換,以滿足目標數據倉庫模型的過程,此外,轉換過程也負責數據質量工作,也稱為數據清洗。

③加載:將已經提取好了,轉換後保證數據質量的數據加載到目標數據倉庫。加載分為首次加載和刷新加載。

數據分析與數據挖掘的區別:

數據分析:簡單來說,數據分析就是對數據進行分析。是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。實現了現狀分析、原因分析、預測分析的作用。

數據挖掘:數據挖掘是指從大量的數據中,通過統計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。實現了分類、聚類、關聯和預測的作用。

Hadoop是什麽?

Hadoop是一個開源的框架,可編寫和運行分布式應用處理大規模數據,是專門為離線和大數據分析而設計的,不適合對幾個記錄隨機讀寫的在線事務處理模式。

Hadoop=HDFS(文件系統,數據存儲技術相關)+Mapreduce(數據處理)。Hadoop就是一個分布式計算的解決方案。Hadoop典型的應用有:搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等。適合應用於大數據存儲和大數據分析的應用,適合於服務器幾千臺到幾萬臺的集群運行,支持PB級的存儲容量。

大數據學習之一——了解簡單概念