1. 程式人生 > >雲端計算助力大資料分析

雲端計算助力大資料分析

前記:這是我老婆隨手寫的一篇文章,結合了她當前的分析工作和雲端計算,介紹了雲端計算對大資料分析的助力。

  在網際網路後時代,資料分析已經成為企業保持競爭力的必要方法。企業在成長和發展的過程中積累了海量的資料,這些歷史資料不管是通過紙質媒介,還是通過硬碟記錄下來,都是企業寶貴的資料資產。對資料進行數字化處理,建立資料倉庫,訓練資料模型,然後使用一定的分析方法,從資料中挖掘出使用者的行為和偏好,發現對決策有潛在價值的關係、模式和趨勢,幫助企業的管理層做出更有效的決策。而資料分析還能夠根據企業經營的資料,監控企業經營的指標,進而量化企業的管理,這都體現出大資料的巨大商業價值。

  目前,離開高質量的資料,很難有企業仍然可以高效執行,各企業都依賴於它們的資料資產以做出更為明智和有效的決策。事實上,市場領導者正利用資料資產,通過豐富的客戶資料、資訊創新和高效運營取得競爭優勢。企業通過資料資產,針對性地向客戶提供更好的產品和服務,這樣不僅可以降低成本,控制風險,還能精準定位問題,發現商機。隨著企業對資料需求的不斷增長,以及企業對資料的依賴性不斷增強,人們越來越清楚地意識到資料資產的商業價值。

  那麼資料分析的價值有多大呢?離開資料分析,許多企業都不能進行有效的市場分析、比較類似產品的顧客反饋、發現競爭對手的優勢和缺點、留住高價值的顧客、做出聰明的決策等。從資料中獲取價值如此重要,以至於幾乎所有的企業都在做資料分析,但是,大資料的儲存、提取、處理和分析都是非常耗費財力、物力和人力的。如果不能使用最低的成本獲得到資料中隱藏的價值,企業同樣活不下去。

  雲端計算是一個降低資料分析成本的創新技術,它通過一體化、自動化、智慧化的IT系統,將傳統運維工作中的大量簡單、重複性的手工工作通過軟體實現,使運維人員有更多精力、條件,投入到整個服務生命週期當中。雲端計算是網格計算、分散式計算、平行計算、效用計算、網路儲存、虛擬化、負載均衡等傳統計算機技術和網路技術發展融合的產物,旨在通過網路把很多個成本相對較低的計算實體整合成一個具有強大計算能力的完美系統,並藉助SaaS、PaaS、IaaS、MSP等先進的商業模式把這強大的計算能力分佈到終端使用者手中。雲端計算的一個核心理念就是通過不斷提高“雲”的處理能力,進而減少使用者終端的處理負擔,最終使使用者終端簡化成一個單純的輸入輸出裝置,並能按需享受“雲”的強大計算處理能力。 雲端計算的核心思想,是將大量用網路連線的計算資源統一管理和排程,構成一個計算資源池向用戶按需服務。通俗來說,雲端計算其實就是讓計算、儲存、網路、資料、演算法、應用等軟硬體資源像電一樣,隨時隨地、即插即用。鑑於雲端計算兼顧儲存容量大、計算力強、安全、服務全面、彈性擴充套件、部署簡便、即插即用和費用低廉等明顯的優勢,雲端計算已經成為把企業的大資料變成商機的首選方法。

  從資料中洞察商機、提取價值,並不是一件容易的事,跟企業的資料、資源和人力有很大的關係。企業積累的原始資料,隨著企業的發展和業務的增加,資料量持續增加,這增加了讀取和處理資料的難度;由於各種原因,比如,人為的錄入錯誤,系統出現異常,資料來源異構等原因,導致企業的資料出現缺失、不一致、資料異常等問題,這些髒資料不僅會降低資料的質量,還會影響資料分析的結果。那麼,雲端計算是如何幫助企業把一堆堆雜亂資訊轉化成經濟效益的呢?

  雲技術支援海量資料的儲存。進入資訊化時代之後,資料量在不斷的增長,TB、PB級別的資料量已經司空見慣,這麼大的資料量已經超出了單臺小型伺服器的處理上限,相應地,企業維護如此海量資料的成本也成指數級上升。企業應付資料量激增的傳統的做法是採購大量的硬體裝置,招聘更多的專業技術人員,搭建網路系統以支援資料的儲存和處理,這不僅會耗費企業巨大的財力、人力和時間,還會增加系統維護的成本,在短期內給企業造成很大的經濟負擔。而云計算天生具備大資料的儲存能力,或者說,雲端計算就是為了處理大資料而誕生的。當遇到資料量激增時,企業使用雲端計算的彈性擴充套件服務,可以按需擴充套件系統的資料儲存能力。

  雲端計算支援對海量資料的快速讀取和處理。儲存資料的目的是為了提取資料,並且不是所有的資料都能直接用於資料分析,因此,在分析資料以獲得有商業價值的分析結果之前,必須對資料做適當的處理。當資料量達到PB級別時,傳統的資料讀取技術不僅非常耗費時間,而且非常耗費系統的記憶體、計算和網路資源。在面對海量資料時,如果提取、處理和利用資料的成本超過了資料價值本身,那麼有價值也相當於沒價值。雲端計算擁有強大的資料處理能力,其分散式的、可擴充套件的設計能夠應對海量資料的處理任務,比如,異常資料的處理、離群點的分析、資料質量的分析等。對於企業而言,雲端計算可以提供按需擴充套件系統的計算力和記憶體資源的服務,以低廉的價格實現大資料的提取和處理,為分析海量資料提供了可能性。

  雲端計算對資源的管理是彈性的。資料分析跟企業的日常事務相比,屬於低頻操作,但它對系統記憶體、計算力和頻寬的消耗是十分巨大的。如果企業為了某一次或某幾次的資料分析任務,而花費重金升級硬體裝置,那麼這會導致大量裝置的閒置,降低資金的回報率。在這種情況下,使用雲端計算是應付大資料分析任務的不二之選,因為雲端計算服務管理的資源是彈性的,資料分析需要的資源,想什麼時候要就什麼時候要,想要多少就有多少;在不需要這些資源時,企業不需要為這些資源額外付費。當前,公有云技術已經十分成熟,國內最好的公有云平臺是阿里雲。阿里雲提供按時、按量計費的服務,這使得企業能夠以最低的成本獲得資料分析的結果。企業不需要採購硬體、搭建網路、招聘專業人員,只需要購買服務,就可以用多少資源,付多少錢。

  雲端計算的即插即用。雲端計算不再是高冷的技術,它已經成為提供資源的基礎服務。絕大多數企業不再需要耗費時間、金錢和精力去搭建自己的網路系統,也不需要去關注技術的實現細節,只需要一根網線接入雲,就能享受雲端計算的強大馬力。雲端計算的便利性,使得資料分析不再侷限於底層資源,企業只需要關注業務層面上的分析。

  雲端計算提供的演算法可高效分析資料。從大量資料中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,這是資料分析的價值所在。從資料的巨大礦坑中發現微小的金子,不僅需要硬體支援,還需要演算法的協助。雲端計算不僅管理資源,還管理演算法。雲端計算平臺上管理著大量的通用演算法和資料集,企業只需要支付少量的費用就可以直接使用,這就為大資料分析提供強大的演算法支援,避免了二次開發,使得資料分析更加快速和高效。

  雲端計算是十分安全的,雲端計算平臺都有專門的安全團隊,負責保護企業的資料資產不會丟失和洩露。大資料是資料分析的養分,如果資料丟失,這會直接導致資料分析的結果失真,甚至影響企業的正常運營;而敏感資料的洩露,甚至會導致企業的破產清算。很多客戶擔心公有云的安全問題,不管是資料洩露的風險,還是停止服務的風險,公有云都遠遠小於自己架設的機房。雲端計算依託大型資料中心、規模化應用和強大的運維體系等優勢環節,讓雲主機的可靠性遠超傳統小型資料中心,因此,企業不需要擔心資料的丟失,洩露等風險。雲上的資料是十分安全的,使得資料分析的結果是可信的。

  雲端計算的上述優點,使得雲端計算成為除水、電、煤氣之外的另一個重要的公共基礎設定服務。雲端計算助力資料分析,使得企業不需要關注資料的儲存和計算等資源,可以把更多的精力投放到資料的分析和業務的優化上,以獲得更多有價值的資訊、提高企業的競爭力。