大資料技術學習,深度挖掘大資料的現狀分析
技術型的高科技創業公司都喜歡閃閃發光的新東西,而“大資料”跟3年前火熱程度相比反而有些悽慘。雖然Hadoop創建於2006年,在“大資料”的概念興起到達白熱化是在2011年至2014年期間,當時在媒體和行業面前,大資料就是“黑金石油”。2015年資料世界中時尚年輕人喜歡轉移到AI的相關概念,他們口味變成:機器智慧,深度學習等。

企業級技術 = 艱苦的工作
其實大資料有趣的是它不是直接可以炒作的東西。
能夠獲得廣泛興趣的產品和服務往往是那些人們可以觸控和感受到的,比如:移動應用,社交網路,可穿戴裝置,虛擬現實等。
但大資料,從根本上說是“管道”。當然,大資料支援許多消費者或企業使用者體驗,但其核心是企業的技術:資料庫,分析等:而這後面幾乎沒人能看到東西執行。
在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
而且如果大家真正工作過的都知道,在企業中改造新技術並不大可能在一夜之間發生。
早年的大資料是在大型網際網路公司中(特別是谷歌,雅虎,Facebook,Twitter,LinkedIn等),它們重度使用和推動大資料技術。這些公司突然面臨著前所未有的資料量,沒有以前的基礎設施,並能招到一些最好的工程師,所以他們基本上是從零開始搭建他們所需要的技術。開源的風氣迅速蔓延,大量的新技術與更廣闊的世界共享。隨著時間推移,其中一些工程師離開了大型網路公司,開始自己的大資料初創公司。其他的“數字原生”的公司,其中包括許多獨角獸,開始面臨跟大型網際網路公司同樣需求,無論有沒有基礎設施,它們都是這些大資料技術的早期採用者。而早期的成功導致更多的創業和風險投資。
現在一晃幾年了,我們現在是有大得多而棘手的機會:資料技術通過更廣泛從中型企業到非常大的跨國公司。不同的是“數字原生”的公司,不必從頭開始做。他們也有很多損失:在絕大多數的公司,現有的技術基礎設施“夠用”。這些組織也明白,宜早不宜遲需要進化,但他們不會一夜之間淘汰並更換關鍵任務的系統。任何發展都需要過程,預算,專案管理,導航,部門部署,全面的安全審計等。大型企業會小心謹慎地讓年輕的創業公司處理他們的基礎設施的關鍵部分。而且,一些(大多數?)企業家壓根不想把他們的資料遷移到雲中,至少不是公有云。

大資料分析的基本流程圖
從另一個關鍵點大家就明白了:大資料的成功是不是實現一小片技術(如Hadoop的或其他任何東西),而是需要放在一起的技術,人員,流程的流水線。你需要採集資料,儲存資料,清理資料,查詢資料,分析資料,視覺化資料。這將由產品來完成,有些由人力來完成。一切都需要無縫整合。歸根結底,對於這一切工作,整個公司,從高階管理人員開始,需要致力於建立一個數據驅動的文化,大資料不是小事,而是全域性的事。
換句話說:這是大量艱苦的工作。
部署階段
以上解釋了為什麼幾年後,雖然很多高調的創業公司上線也拿到引人注目的風險投資,但只是到達大資料部署和早期成熟階段。

更有遠見的大公司(稱他們為“嚐鮮者”在傳統的技術採用週期),在2011 - 2013年開始早期實驗大資料技術,推出Hadoop系統,或嘗試單點解決方案。他們招聘了形形色色的人,可能工作頭銜以前不存在(如“資料科學家”或“首席資料官”)。他們通過各種努力,包括在一箇中央儲存庫或“資料湖”傾倒所有的資料,有時希望魔術隨之而來(通常沒有)。他們逐步建立內部競爭力,與不同廠商嘗試,部署到線上,討論在企業範圍內實施推廣。在許多情況下,他們不知道下一個重要的拐點在哪裡,經過幾年建設大資料基礎架構,從他們公司業務使用者的角度來看,也沒有那麼多東西去顯示它。但很多吃力不討好的工作已經完成,而部署在核心架構之上的應用程式又要開始做了。
下一組的大公司(稱他們為“早期大眾”在傳統的技術採用週期)一直呆在場邊,還在迷惑的望著這整個大資料這玩意。直到最近,他們希望大供應商(例如IBM)提供一個一站式的解決方案,但它們知道不會很快出現。他們看大資料全域性圖很恐怖,就真的想知道是否要跟那些經常發音相同,也就湊齊解決方案的創業公司一起做。他們試圖弄清楚他們是否應該按順序並逐步工作,首先構建基礎設施,然後再分析應用層,或在同一時間做所有的,還是等到更容易做的東西出現。
生態系統正在走向成熟
同時,創業公司/供應商方面,大資料公司整體第一波(那些成立於2009年至2013)現在已經融資多輪,擴大他們的規模,積累了早期部署的成功與失敗教訓,也提供更成熟,久經考驗的產品。現在有少數是上市公司(包括HortonWorks和New Relic 它們的IPO在2014年12月),而其他(Cloudera,MongoDB的,等等)都融了數億美元。
VC投資仍然充滿活力,2016年前幾個星期看到一些鉅額融資的晚期大資料初創公司:DataDog(9400萬),BloomReach(5600萬),Qubole(3000萬), PlaceIQ( 2500萬)這些大資料初創公司在2015年收到的$ 66.4億創業投資,佔高科技投資總額的11%。
併購活動仍然不高(35次)。
隨創業活動和資金的持續湧入,有些不錯的資本退出,日益活躍的高科技巨頭(亞馬遜,谷歌和IBM),公司數量不斷增加,這裡就是2016年和2017年大資料全景圖:


很顯然這裡密密麻麻很多公司,從基本走勢方面,動態的(創新,推出新的產品和公司)已逐漸從左向右移動,從基礎設施層(開發人員/工程師)到分析層(資料科學家和分析師的世界)到應用層(商業使用者和消費者),其中“大資料的本地應用程式”已經迅速崛起- 這是我們預計的格局。
大資料基礎架構:創新仍然有很多
正是因為谷歌十年前的MapReduce和BigTable的論文,Doug Cutting, Mike Cafarella開發 建立Hadoop的,所以大資料的基礎架構層成熟了,也解決了一些關鍵問題。
而基礎設施領域的不斷創新蓬勃發展還是通過大量的開源活動。

Spark帶著Hadoop飛
2015年毫無疑問是Apache Spark最火的一年,這是一個開源框架,利用記憶體中做處理。這開始得到了不少爭論,從我們釋出了前一版本以來,Spark被各個對手採納,從IBM到Cloudera都給它相當的支援。 Spark的意義在於它有效地解決了一些使用Hadoop很慢的關鍵問題:它的速度要快得多(基準測試表明:Spark比Hadoop的MapReduce的快10到100倍),更容易編寫,並非常適用於機器學習。
其他令人興奮的框架的不斷湧現,並獲得新的動力,如Flink,Ignite,Samza,Kudu等。一些思想領袖認為Mesos的出現(一個框架以“對你的資料中心程式設計就像是單一的資源池”),不需要完全的Hadoop。即使是在資料庫的世界,這似乎已經看到了更多的新興的玩家讓市場持續,大量令人興奮的事情正在發生,從圖形資料庫的成熟(Neo4j),此次推出的專業資料庫(時間序列資料庫InfluxDB),CockroachDB,(受到谷歌Spanner啟發出現,號稱提供二者最好的SQL和NoSQL),資料倉庫演變(Snowflake)。
大資料分析:現在的AI
在過去幾個月的大趨勢上,大資料分析已經越來越注重人工智慧(各種形式和介面),去幫助分析海量資料,得出預測的見解。
最近AI的復活就好比大資料生的一個孩子。深度學習(獲取了最多的人工智慧關注的領域)背後的演算法大部分在幾十年前,但直到他們可以應用於代價便宜而速度夠快的大量資料來充分發揮其潛力(Yann LeCun, Facebook深度學習研究員主管)。 AI和大資料之間的關係是如此密切,一些業內專家現在認為,AI已經遺憾地“愛上了大資料”(Geometric Intelligence)。
反過來,AI現在正在幫助大資料實現承諾。AI /機器學習的分析重點變成大資料進化邏輯的下一步:現在我有這些資料,我該怎麼從中提取哪些洞察?當然,這其中的資料科學家們 - 從一開始他們的作用就是實現機器學習和做出有意義的資料模型。但漸漸地機器智慧正在通過獲得資料去協助資料科學家。新興產品可以提取數學公式(Context Relevant)或自動構建和建議資料的科學模式,有可能產生最好的結果(DataRobot)。新的AI公司提供自動完成複雜的實體的標識(MetaMind,Clarifai,Dextro),或者提供強大預測分析(HyperScience)。
由於無監督學習的產品傳播和提升,我們有趣的想知道AI與資料科學家的關係如何演變 - 朋友還是敵人? AI是肯定不會在短期內很快取代資料科學家,而是希望看到資料科學家通常執行的簡單任務日益自動化,最後生產率大幅提高。
通過一切手段,AI /機器學習不是大資料分析的唯一趨勢。令人興奮的趨勢是大資料BI平臺的成熟及其日益增強的實時能力(SiSense,Arcadia)。
大資料應用:一個真正的加速度
由於一些核心基礎架構難題都已解決,大資料的應用層迅速建立。
在企業內部,各種工具已經出現,以幫助企業使用者操作核心功能。例如,大資料通過大量的內部和外部的資料,實時更新資料,可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買。客戶服務應用可以幫助個性化服務; HR應用程式可幫助找出如何吸引和留住最優秀的員工;等
專業大資料應用已經在幾乎任何垂直領域都很出色,從醫療保健(特別是在基因組學和藥物研究),到財經到時尚到司法(Mark43)。
兩個趨勢值得關注。
首先,很多這些應用都是“大資料同鄉”,因為他們本身就是建立在最新的大資料技術,並代表客戶能夠充分利用大資料的有效方式,無需部署底層的大資料技術,因為這些已“在一個盒子“,至少是對於那些特定功能 - 例如,ActionIQ是建立在Spark上,因此它的客戶可以充分利用他們的營銷部門Spark的權力,而無需實際部署Spark自己 - 在這種情況下,沒有“流水線”。
第二,人工智慧同樣在應用程式級別有強大吸引力。例如,在貓捉老鼠的遊戲,安全上,AI被廣泛利用,它可以識別黑客和打擊網路攻擊。 “人工智慧”對衝基金也開始出現。全部由AI驅動數字助理行業已經去年出現,從自動安排會議(x.ai)任務,到購物為您帶來一切。這些解決方案依賴人工智慧的程度差別很大,從接近100%的自動化,到個人的能力被AI增強 - 但是,趨勢是明確的。
在許多方面,我們仍處於大資料的早期。儘管它發展了幾年,建設儲存和資料的過程只是第一階段的基礎設施。 AI /機器學習出現在大資料的應用層的趨勢。大資料和AI的結合將推動幾乎每一個行業的創新,這令人難以置信。從這個角度來看,大資料機會甚至可能比人們認為的還大。