1. 程式人生 > >大數據是什麽?華為雲學院帶你探索大數據之旅

大數據是什麽?華為雲學院帶你探索大數據之旅

個人 知識管理 一個 信息技術 每年 大數據 vol 核心 創新

大數據是什麽?華為雲學院帶你探索大數據之旅
我們首先從大數據是什麽開始講起,!下面由我來帶領大家!展開我們本次的大數據學習之旅!大數據是什麽,內容將包括大數據的產生,發展大數據的基本概念。首先我們來追溯一下大數據的產生與發展,大數據的產生和發展主要經歷了三個階段。

第一個階段,我們稱為是萌芽期!自上世紀九十年代至本世紀初,隨著數據挖掘理論和數據庫技術的逐步成熟,一批商業智能工具和知識的管理技術也開始得到應用,比如數據倉庫,專家系統知識管理系統等等。第二階段我們稱為是成熟期。本世紀的前十年Web2.0應用的迅猛發展,非結構化數據的大量產生,使得傳統的處理方法已經難以應對,而大數據技術卻快速的突破。而大數據的解決方案也逐漸的走向成熟。大數據在成熟期形成了並行計算與分布式系統兩大核心技術。谷歌的GFS和MapReduce等大數據技術呢也受到了追捧!開源技術Hadoop平臺也開始大行其道!而第三個階段我們稱為大規模的應用期。2010年以後,呢大數據開始廣泛用到各行各業!人們開始用數據來驅動決策,社會的信息化智能化程度也大幅的提高。

所以,大數據的發展,歷經茫崖成熟,再到大規模應用三個階段。

我們了解了大數據的發展歷程,那究竟什麽是大數據?關於大數據的概念眾說紛紜,甚至已經成為了一個商業問題,並且在商業出版社被大量的報道。比如福布斯的雜誌報道稱,大數據已經抵達賽特醫療保健家庭,通過使用這個分析工具,每年超過200萬的復雜病例患者得到了幫助。紐約時報指出,數據已經成為一類新的經濟資產,就像貨幣或者是黃金一樣。而CNBC呢也曾這樣比喻,數據就像新型石油一樣,為挖掘的沒有什麽價值,但經過加工提煉以後,將會極大的助力世界發展。那麽我們究竟如何去定義大數據?其實呢到目前為止,大數據還沒有一個明確的統一的定義,不同組織機構對大數據有著不同的描述。麥肯錫認為,大數據是指大小超出了典型數據庫軟件的采集存儲管理和分析等能力的數據集。他認為大數據的一般範圍是從幾個TB到幾個pb,而維基百科給出的定義是,無法在一定時間內使用常規的軟件工具,對其內容進行抓取管理和處理的大量而復雜的數據集合。

美國國家標準技術研究院給出的定義是,數量大,獲取速度快,或者是形態多樣的數據,難以使用傳統的關系型數據分析方法進行有效的分析,或者需要大規模的水平擴展,才能高效處理的這種數據形態。而Gartner公司認為大數據是一種體量大快速和多樣化的信息資產,需要使用高效率和創新型的信息技術加以處理,來提高發現洞察,做出決策和優化流程的能力。可見對大數據的定義還沒有統一的定論。但不論哪一種描述,關於大數據的思維特征卻是一致公認的。那什麽才是大數據的思維特征?呢我們來一起認識一下。首先第一個V指的是VOLUME,容量。主要指非結構化數據的規模和增長速度。因為非結構化數據占數據總量的80%到90%,同時也比結構化數據增長快十倍到50倍,並且數據量是傳統數據庫的十倍到50倍。第二個V指的是為Variety,多元化。主要指大數據的易構和多樣性。數據有很多不同的形式,比如文本圖像視頻機器數據等等,這些數據大多是無模式或者是模式不明顯。第三個V值得是value,價值,主要體現在大量的不相關,信息價值密度低,需要通過深度復雜分析,才可以對未來的趨勢和模式進行預測。第四個V指的是Velocity高效。主要體現在實時分析,實時呈現分析結果。

好,那麽接下來我們詳細分析一下思維特征。第一個,V580畝數據的體量巨大,主要體現在從TB級別到pb級別。截至目前為止,人類生產的所有印刷材料的數據量是兩百個pb。那麽當前典型的個人計算機硬盤的容量為TB量級,而一些大企業的數據量已經接近到一B級別,這是什麽概念?呢我們來看一下容量單位的一些形象事例。比如一個pb等於1024個TB相當於50%的全美學術研究圖書館藏書的內容總和,一個1B等於1024個pb,那五個E幣就相當於至今全世界人類所講過的所有話語,一個ZB等於1024個1B如同全世界海灘上的沙子的數量總和。一個歪B等於1024ZB相當於7000為人類體內的細胞數的總和,可見呢大數據的數據量確實是海量的。第二個VVIP多樣化,其實物聯網數據互聯網數據企業行業內的數據呢都是大數據的數據組成部分。

那麽大數據的多樣性主要體現在,第一數據的來源多,企業內部多個應用系統的數據,互聯網和物聯網的興起,帶動微博社交網站傳感器等多種數據來源。
第二,數據的種類多,保存在關系型數據庫中的結構化數據其實呢只占少數,而80%到90%的數據是諸如圖片音頻視頻模型連接信息文檔等等一些非結構化和半結構化數據。那麽相對以往便於存儲的以文本為主的結構化數據而言,這些非結構化數據越來越多。同時這些多類型的數據對數據的處理能力也提出了更高的要求。
第三,關聯性強。數據之間的頻繁交互,比如遊客在旅途中上傳的圖片和日誌,其實與遊客的位置和行程等信息呢有很強的關聯性。因此大數據不僅體現在量的巨大,還體現在種類的豐富多樣。而第三個VV6價值。對於大數據本身而言,它的價值密度低,這是它的典型特征。而如何去挖掘大數據的潛藏價值,像沙裏淘金一樣,從海量數據中挖掘稀有並且珍貴的信息,那麽才是大數據的核心。那麽第四個V指的是什麽?
在大數據領域能否實現實施的數據流處理,是區別大數據引用和傳統數據倉庫技術BA的關鍵差別之一。那比如我們以一秒為臨界點,對於大數據應用而言,要求必須在一秒內形成答案,否則處理結果就是過時或者是無效的。根據I dc的數字宇宙報告,預計到2020年,全球數據的使用量將達到35.2個ZB那麽在如此海量的數據面前,處理數據的效率就是企業的生命。好,以上就是大數據的思維特征。
下一次我們將繼續探索大數據,如想進一步視頻學習,請請訪問華為雲學院(https://edu.huaweicloud.com/)
我在華為雲學院等你,不見不散喔~

大數據是什麽?華為雲學院帶你探索大數據之旅