1. 程式人生 > >Thinking in BigData(三)大資料運作機理與趨勢

Thinking in BigData(三)大資料運作機理與趨勢

大資料運作機理與趨勢

       結束了,上一篇的大資料變革。接下來,我們將更加深入的探討大資料是如何執行的?以及大資料將會在哪些具體的領域產生改變以及如何實施它們?

大資料運作機理

       2013年12月5-6日,在北京召開的,中國大資料技術大會。從一開始,這個名詞似乎已經預示著,這將是再一次將大資料的影響力進一步拉大。集結上百名國內外頂級的技術專家,在一起談到它帶給我們的價值。在這裡,我們不去過多的探討,會議將會對14年大資料的轉型帶來什麼風向標,但有一點必須肯定,一年的瘋狂亂抄過後,必是開始技術實施的階段。這也就是,為什麼印刷時代經歷了幾百年的積累,在工業革命只需要幾十年的技術革新,再到如今的網際網路、移動網際網路時代,我們對一個概念的具體實施階段已經變得我們自己都很難想象,而這背後意味著什麼?

       當我們在這裡探討大資料怎麼怎麼樣的時候,就貌似幾年前我們瘋抄“電商”的概念一樣,其概念是明確又是模糊。但不管“籠統”概念的好壞,確實直接反應在商業行為中的。所以,大家一開始接觸電商,立馬就會發現純粹的電商是不可行的。一定是O2O,線上和線下的合作,才能形成一個生態互補,才能真正激發各自的潛力。

       而大資料的機理是什麼?這個概念會更加模糊,更加具有不可定性。以至於,絕大多說的人至今還有找到其源頭。

       打個比方:

       現某大型電商的電子統計圖裡清晰的顯示出,全國各達地區出現食鹽緊缺的旺盛需求,按照此需求的增長速率,此電商必須立即補貨。否則,食鹽就會缺貨。作為此電商的決策人,你是補還是不補?

       首先,我們要明白一點,照常態來說,食鹽這種商品是沒有理由出現大規模銷量暴漲的,但是,系統彙總全國使用者的購買資訊繪製的銷售圖示是沒有錯的。這時候,問題就出現了,如果按照銷售圖來預判未來趨勢採購食鹽,如果銷售突然下滑,那麼付出的物流以及成本損失該如何計算。

       就在這個小案例中給我們透露出什麼訊息?大資料在運作的過程中,有它的弊端。而這個弊端是什麼?是因為它還不夠“大”。就像案例所說的,常態情況,食鹽是沒有理由大規模的銷量暴漲的,但你的銷售系統提供的報表,清晰的顯示如此,以及預測未來的食鹽銷量趨勢將會不斷增長。而你僅僅只看到了資料,就輕易的做出的採購的決定。為什麼,銷售提供的報表是一個可能增長的資訊,但這違背了你腦袋中的預判邏輯。所以,你對你的判斷也是是是而非,不確定。而能解決這一問題,就只有當你的資料“大”到一定程度,以至於把全部變數全都覆蓋,而那些影響因素都在其中,此時的預測就可以足令人信服。

       又例如:工信部調查,中國人均工資每年上漲7%,勉強應對通貨膨脹。而且鏗鏘有詞的指出,經過系統精心計算。

       如果你看到上面的資訊,你會有什麼樣的感受?如果你不是政府官員,只是一個打工的,相信你十有八九會覺得,這是在放屁。為什麼,因為你在乎的不是工資上漲的百分比的統計,而是關心的是自己的工資上漲的幅度。而事實,卻不是我們想象的那樣。

       通過上面的案例,能透露出什麼?透露出大資料的相對“無效性”。即使你用大資料能得到一些東西,但是你得出的東西對我來書毫無價值。這時,你想到什麼?管你大資料還是小資料,多看一眼都是浪費時間,甚至有時候是誤導。這就談到了我在上一篇部落格中談到的大資料的缺陷

       一、    如果某個事務的關聯資訊不能完全融入到“大資料”系統,則大資料的可靠性,實用性就有待商榷。

       二、    很多東西,我們根本不需要大資料來告訴我們。因為我們本身就是實驗者,本身就知道。我們苦惱的,是入股解決當下面臨的困境。而大資料顯然無法在中短期給我們提供幫助。

        因此,一定程度下,我們可以說:大資料,也就是一個參考價值相對更高的一丁點資料而已。如果你所處在的行業變數太多或成本就是早已知道原因,只不過能力不足才面臨的困境。大資料對你而言,其實沒有那麼大的價值。

       當我們把案例僅僅聚焦到商人在貨源採購上的單項的判斷上,並沒有涉及其他諸如競爭對手資訊,以及當地運營成本等因素。這意味著什麼?意味著即使大資料可以應用,但也侷限在相對的“變數”不多的區域性的層面。否則,它的的能效就遠遠配不上“大資料”的稱謂。

       我們無意在本身上潑一些冷水,而是在某種程度上告誡我們,大資料即使在未來會越來越顯示出價值,但由於涉及面太廣。所以,除了部分部門,多數商人或個人其實沒有必要那麼緊張大資料。除非你想借用,大資料分析獲得客觀的效益,否則,在相對細分的行業,不能說雞肋,但想要起到非常大的作用,是很難的。

      但是我們又無所適從嗎?來吧,看看下面的變化!

 從起步,到加速

       IDC(國際資料公司)估計,全球2012年產生資料總量約2.8澤位元組。有人計算,這相當於3000多億部時長2小時的高清電影,連著看7000多萬年也看不完。而這還只是序曲。更大的浪潮在後頭。IDC預測,未來幾年,全球資料量每隔兩年翻一番,2020年達到40澤位元組。大資料是推動這場大變革的重要動力,將成為促進經濟社會轉型新的關鍵資源。蒐集、分析和運用指數級增長的龐大資料,將催生創新,為各行各業提供新的發展機遇,給人們日常生活帶來改變。

       星巴克有意推出的“大資料咖啡杯”就是個小小的例子。美國媒體報道,這家咖啡連鎖巨頭打算試驗在一些咖啡杯中裝上感測器,收集常客喝咖啡速度等資料,從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠度。

       大資料的本質還不在於“大”,而是以嶄新的思維和技術去分析海量資料,揭示其中隱藏的人類行為等模式,由此創造新產品和服務,或是預測未來趨勢。

       大資料被視為創新和生產力提升的下一個前沿,正成為國家競爭力的要素之一,在世界範圍內日益受到重視。多國政府加大了對大資料發展的扶持力度,甚至上升到國家戰略的高度。2013年,圍繞大資料的國際競爭繼續加碼。

       諮詢公司研究顯示,全球對大資料專案投資總額2012年已達45億歐元(約60億美元),預計2013、2014兩年均會保持約40%的增長速度。

       在美國,大資料已由熱點詞彙變成重點專案。2012年3月,美國政府已公佈2億美元的《大資料研究發展計劃》,2013年11月再度公佈涉及各級政 府、私企、科研機構的多個大資料研究專案。美國國家衛生研究院、國家科學基金會等都參與其中,有評論稱之為美國大資料戰略2.0版。在英國,雖然經濟不景氣、財政緊縮,但政府依然為大資料一擲千金。2013年初,英國商業、創新和技能部宣佈將注資8億英鎊發展8類高新技術,其中1.89億英鎊(約3億美元)用於大資料專案。

       大資料在中國也已啟動駛入“快車道”,政府、企業和科研院所正多方位佈局。工信部的物聯網“十二五”發展規劃,將資訊處理技術作為四項關鍵創新技術 工程之一,其中包括海量資料儲存、資料探勘等。

       英國雜誌2013年3月刊登的研究發現,只要有4個時間點和位置的資料就能確定一個人身份,準確率高達95%。這表明,大資料足以將一個人“描畫”清晰,現有法律手段和核心技術對個人隱私的保護正在逐漸失效。

       大資料專家喜歡用莎士比亞“凡是過去,皆為序曲”來形容大資料分析的必然,但大資料提供的也只是參考答案而非最終答案。無論在小資料時代還是大資料時代,探索和創新精神都不應放棄,正如林肯所言,“預測未來最好的方法就是去創造未來”。而這一切切的改變說明:正能量。它能做的更好。

引進大資料?

讓我們追到遠古的需求,展現盡美。  (阿里-馮沁原)

在經過瘋狂的一年概念炒作,我們開始進入這個領域。它到底是什麼,為何要引進大資料。在許多客戶的諮詢過程中,大資料資料引入的必要性和價值意義的深層挖掘到底是什麼。客戶有資料,有平臺,但不知道要不要上大資料,怎麼上,為何要上大資料以及大資料究竟能給我們帶來哪些價值和意義。

1、突破技術瓶頸

傳統輿情分析模式、大資料技術的成熟、RDBMS的侷限。

       網際網路技術催生出了大資料時代的到來,大資料時代的資料形態有四大特點:

       一、資料量巨大,非結構化資料的超大規模和增長佔總數量的80%到90%,相比於結構化資料快10到50倍;

       二、資料的異樣和多樣性,比如圖片、新聞、微博、部落格、微信、買賣訊息記錄,比傳統資料更重要更具資料複雜性,有時甚至大資料中的小資料如一條微博就可以具有顛覆性的價值;

       三、價值密度低,大量的不相關資訊,需要沙裡淘金;

       四、傳播速度快,因襲需要實時分析而非批量式分析。

       大資料時代,面對海量快速更迭的資訊,純手工監測、分析、判斷網際網路已經不太現實了。自動化輿情軟體成為大資料環境下輿情監測和分析的引擎。在2012年底,國家成立兩個大資料實驗室,一個在中科院,一個在北航。有幸接觸到在中科院大資料實驗室的蘭豔豔老師,他們現在正在做的就是新聞輿情監測。輿情監測可以設定一些和自己機構、產業、範圍相關的關鍵詞。這裡可以包括競爭者或是合作伙伴,然後要放在特定的網路媒體中進行搜尋。所有“資訊碎片”蒐集完畢,開始聚合資訊,判斷哪些和產品先關,哪些和地區相關,哪些跟自己相關。根據不同的因素,設定不同的維度。把這些資訊進行精確地採集和過濾,進一步加工,分析,包括傳播統計和分析(涉及媒介分析、主體分析,傳播路徑分析,源頭分析),敏感度輿情,輿情資訊傳播趨勢分析,與判所收集輿情資訊的未來趨勢。在此基礎上產生輿情簡報,日報或週報,對階段性監測到的輿情進行統計和分析,包括輿情分佈,熱點輿情排行,負面輿情排行,正面輿情排行等情況。

        大資料時代的自身的特定也決定我們將面度巨大資料儲存的壓力,同時面臨海量資料資訊的過濾,資料加工,資料分析和平臺運算瓶頸。要想突破傳統技術的約束,我們必須開始關注大資料技術,必須引進大資料技術

2、擺脫成本枷鎖

       伺服器硬體成本、作業系統成本、應用軟體成本。

       在面臨海量資料的到來,我們想到的第一問題,如何利用,如何處理。這在談到的大資料技術,我們必須要明白一個道理,當我們手上有了可以稱之為大資料的資料之前。我們這些資料收集之前,已經開始探討這個問題了。所以,還有還有人在擔心,大資料技術如何實現的問題,已經是落後別人幾大截了。Google在2009年初,就利用大資料思維,把5000萬條美國人最頻繁檢索的詞條和美國疾病控制中心在2003年至2008年間季節性流感傳播時期的資料進行了比較,就已經成功預測H1N1流感病毒的爆發。在搜尋引擎技術上會談到分而治之的思想,MapReduceMap的過程就是把大批量的任務分開成多個相同或不同的小份子,然後分發給不同的機器進行處理。而Reduce的過程可以簡化理解成,小份子複合的過程。當我們資料大到,我們的機器、伺服器已經沒有辦法進行處理的時候,我們首先想到的就是Map/Reduce,而Google早已經在第一代搜尋引擎中提出這個思想,早已經是、運用在各個方面。所以,當我們在和別人談到,如何利用資料的時候,首先,明確,現在網際網路業界已經存在相當成熟的經驗,已經運用到大型網際網路公司。其次,我們必須要考慮的就是業務,沒有業務資料也是毫無價值,建立在業務基礎上的大資料探勘才能產生資料的價值。在這裡,業務需求,已經建立在技術和資料之上的首要位置。而且這一點,常常是我們最容易忽視。

       在基於傳統模式的輿情分析和歷史資料儲存,是建立在高效能伺服器硬體和昂貴的關係型資料基礎之上的。一方面,硬體技術掌握在幾大網際網路巨頭手中,伺服器的效能是以昂貴的成本為支撐的;另一方面,硬體基礎之上的作業系統、應用軟體和關係型資料庫也同樣掌握在幾大巨頭手中,同樣價格不菲。此外規模的擴充套件、軟體的升級和每年的服務費也是異常昂貴。在面臨上面的問題時候,傳統網際網路公司、電信公司等如何享用這些技術,如何利用這些技術在自己的業務上產生價值。

       在網際網路技術之上發展起來的大資料,以開源的HadoopHBase為基礎,以HiveSqoopPigFlume等軟體為工具,建立在傳統X86-PC伺服器上和開源Linux作業系統之上(接下來我們會更深入探討這些技術背後的原理)。一方面是的硬體成本得以降低。另一方面無須為作業系統和應用軟體支付昂貴的License費用。可以說,在大資料時代,人人都可以玩大資料,人人都可以玩的起大資料,人人都可以在很大程度上擺脫傳統IT廠商鉅額的成本依賴。開源,使這一切開始變得簡單起來,不再是那麼遙遙不可及。

3、促進業務創新

       業務拓展的需求、客戶服務的需求。

       在上面,我們已經談到了,“業務”已經超越在技術和資料的地位之上。為什麼我們把業務看的這麼重要。因為,一、業務是直接和使用者打交道,第一時間瞭解使用者所需,只有根據使用者所需,我們才能提供針對性的客服服務。二、業務是直接產生價值的。使用者是支付的初始,為什麼使用者願意支付?,願意買?這已經涉及到銷售與客戶關係管理方面。當業務提出需求,後面才是資料的分析與利用,技術的支援與共享。拋開業務而談大資料的應用,已經是本末倒置,南轅北轍了。但,兩者之間又是相互依存,相互利用,技術提供更好的使用者體驗,資料來提供更精確的使用者群體。同時,通過大資料的應用可以衍生出新的服務,新的產品,促進業務與產品的創新。

      企業大資料分析:趨勢

隨著企業使用者越來越多地需要連續不斷地訪問資料,好的大資料工具集將以最低的成本和接近實時的速度提供可伸縮的、高效能的分析。通過分析這種資料,企業可得到更大的智慧以及競爭優勢。接下來我們介紹一下,Hadoop和大資料專業廠商MapR共同創始人和執行長約翰·施羅德(John Schroeder)對2014大資料市場的預測。

      開始我們商業與技術之旅。這裡只讀概念定義簡易介紹,後續的部落格將持續更新對相關技術的概述。我們拭目以待吧!

1. SQL擁有大資料的最大潛力

       基於Hadoop(分散式計算)的SQL的發展能夠讓商業分析師利用自己的技能和選擇的SQL工具執行大資料專案。開發人員可以選擇Hbase、Hive、DrillImpalaApache專案,以及選擇HadaptHAWQSplice Machine等公司的專有技術。已經基於實時大資料處理的Storm系統,可以用實時推薦系統以及相關要求實時性高的系統。Hadoop叢集下,同樣衍生出,另一種大資料分析框架,Spark,基於記憶體的下一代大資料分析框架。還有熱門的Splunk 機器資料搜尋引擎下的大資料分析。這一切都給我們打開了大門。

2. 儘管如此SQL還面臨挑戰

       SQL需要資料結構。而集中的結構化資料可引起延遲並且需要人工管理。SQL還限制分析型別。過分強調SQL將延遲機構全面利用其資料價值的努力和延遲反應。這就引發了Nosql(非關係型資料庫)的到來。而在《NoSql精粹》裡談到,持續增長的海量資料,催生了一種名為NoSql的非關係型資料庫。該技術可以構建出更高效、更易擴充套件且更易編碼的系統。

3. 身份識別是主要的資料安全問題

       隨著Hadoop(分散式計算)中提供的接入控制能力的猛烈攻擊,機構迅速認識到線路級身份識別是必要的基礎。沒有充分的身份識別,任何更高階的控制都很容易被繞過,妨礙預定的安全計劃。

4. 資料錯誤變成學習機會

       2014年機構將出現許多資料錯誤。資料錯誤將表明基礎的來源系統的問題嗎?資料錯誤是在下游分析中出現偏差導致的資料提取問題嗎?資料錯誤將表明定義差異或者缺少跨部門和業務部門的一致性嗎?2014年將看到解決資料異常問題。

5. 出現可執行的Hadoop

       2014年將看到Hadoop在各個行業中的生產部署顯著增加。這將顯示出Hadoop在運營中的實力。在那裡,生產應用與分析結合在一起能夠提供可以衡量的商業優勢,如在客戶化零售建議、詐騙檢測和試驗感測器資料進行規範的維護等應用中提供這些優勢。

6. 更多的資料倉庫將部署企業資料中心

       資料中心把資料提取處理和資料從企業資料倉庫解除安裝到Hadoop。作為一個核心的中心企業中心,資料中心要便宜10倍,能夠對額外的處理或者新的應用進行更多的分析。

7. 新的以資料為中心的應用將成為強制性的

       利用大資料的能力將在2014年成為競爭的武器。更多的公司將使用大資料Hadoop準確地針對個人消費者的偏愛追逐賺錢的追加銷售和交叉銷售的機會,更好地緩解風險以及減少生產和開銷成本。

8. 資料成為資料中心的核心

       機構將從開發者過渡到大資料計劃中。IT部門將越來越多地擔負定義支援多種應用的資料基礎設施的任務,把重點集中在部署、處理和保護一個機構的核心資產所需要的基礎設施方面。

9. 搜尋將成為非結構化的查詢語言

       2013年有大量的用於HadoopSQL計劃。2014年將是這種非結構化查詢語言成為重點的一年。把搜尋整合到Hadoop將為查詢重要資訊的企業使用者提供一種簡單和直觀的方法。搜尋引擎還是包括推薦引擎在內的許多發現和分析應用的核心。

10. Hadoop將獲得地位

       Hadoop將繼續取代其它IT開支,顛覆企業資料倉庫和企業儲存。例如,甲骨文的主要營收目標在過去的10個季度裡有5個季度沒有實現。Teradata在過去的5個季度有4個季度沒有實現營收和利潤目標。

11. Hadoop仍需要幫助才能成為主流應用

       更多的機構認識到Apache Hadoop本身還沒有準備好在企業應用。ApacheHadoop不是為系統管理或者災難恢復等統一企業IT流程設計的。企業將繼續推進混合的解決方案,把架構技術創新與ApacheHadoop的開源軟體結合在一起。

開啟另一扇窗

       2013年12月19日,在亞馬遜AWS(Amazon Web Services)宣佈通過“前店後廠”模式落地中國的第二天,亞馬遜雲全球最高領袖、亞馬遜全球高階副總裁Andy Jassy高管一行來到北京航空航天大學。這場行程,似乎不僅是與北航校長,軟院院長就雲端計算之間的洽談以及合作交流,而是在背後又預示著基於雲端儲存技術的大資料平臺應運而生,且已經落地實處。

       大資料的終結點在哪裡,我們無從談起,但第一步要解決的問題是,儲存的問題。而云儲存似乎解決了這一難題。緊隨其後的是,雲端一體,單機與叢集與雲端儲存伺服器之間的互動,這為我們再一次披上神祕又令人興奮的面紗。我們期待這與變革同步產生的興奮與願景。讓我們趕上這個時代,開啟礦山,揭開隱藏在內部金子。

Write in Beijing                                                                                                

      總結參考文獻:

      http://www.36dsj.com/archives/5560

      http://www.36dsj.com/archives/5482

Copyright ©BUAA