1. 程式人生 > >雲端計算與大資料第一週要點

雲端計算與大資料第一週要點

一、什麼是雲端計算?

雲端計算 (cloud computing)是基於網際網路的相關服務的增加、使用和交付模式,通常涉及通過網際網路來提供動態易擴充套件且經常是虛擬化的資源。雲是網路、網際網路的一種比喻說法。過去在圖中往往用雲來表示電信網,後來也用來表示網際網路和底層基礎設施的抽象。因此,雲端計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這麼強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。使用者通過電腦、筆記本、手機等方式接入資料中心,按自己的需求進行運算。 關鍵技術:分散式計算、虛擬化、多使用者、分散式儲存 SaaS software as a service 軟體即服務 PaaS platform as a service 平臺即服務 IaaS infrastructure as a service 基礎設施即服務

二、什麼是虛擬化?

虛擬化,是指通過虛擬化技術將一臺計算機虛擬為多臺邏輯計算機。在一臺計算機上同時執行多個邏輯計算機,每個邏輯計算機可執行不同的作業系統,並且應用程式都可以在相互獨立的空間內執行而互不影響,從而顯著提高計算機的工作效率。 虛擬化使用軟體的方法重新定義劃分IT資源,可以實現IT資源的動態分配、靈活排程、跨域共享,提高IT資源利用率,使IT資源能夠真正成為社會基礎設施,服務於各行各業中靈活多變的應用需求。

三、什麼是大資料?

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

發展的三個階段: 第一階段 上世紀90年代至本世紀初 資料探勘理論 資料庫技術 商業智慧工具 知識管理技術 第二階段 本世紀前十年 並行雲端計算與分散式系統 第三階段 2010年以後 資料確定決策

屬性: 大量化、快速化、多樣化、價值化等

大資料的影響 在思維方式方面,大資料完全顛覆了傳統的思維方式: 全樣而非抽樣 效率而非精確 相關而非因果

在社會發展方面,大資料決策逐漸成為一種新的決策方式,大資料應用有力促進了資訊科技與各行業的深度融合,大資料開發大大推動了新技術和新應用的不斷湧現

在就業市場方面,大資料的興起使得資料科學家成為熱門職業

在人才培養方面,大資料的興起,將在很大程度上改變中國高校資訊科技相關專業的現有教學和科研體制

大資料應用 這裡寫圖片描述

大資料關鍵技術 分散式儲存: GFS\HDFS(谷歌檔案系統、hadoop檔案系統) BigTable\HBase(資料庫) NoSQL(鍵值、列族、圖形、文件資料庫) NewSQL(如:SQL Azure)

分散式處理:MapReduce

大資料計算模式 批處理計算 針對大規模資料的批量處理 MapReduce、Spark等 流計算 針對流資料的實時計算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流資料處理平臺等 圖計算 針對大規模圖結構資料的處理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 查詢分析計算 大規模資料的儲存管理和查詢分析 Dremel、Hive、Cassandra、Impala等

四、Hadoop

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。

使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。 Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料。

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,則MapReduce為海量的資料提供了計算。 (map:對映 reduce:化解 hdfs:hadoop分散式檔案系統)

五、大資料與雲端計算、物聯網關係

這裡寫圖片描述