1. 程式人生 > >第四期:有關大數據相關問答匯總,持續更新哦~

第四期:有關大數據相關問答匯總,持續更新哦~

大數據

NO.1 大數據為什麽這麽“火”?為什麽那麽多人轉型學大數據?

回答一:身為數據極客,在2017年應該能感覺很幸福。

去年,我們曾經問過大家“大數據還是個值得關註的大事嗎?”,並註意到由於大數據更像是一種“系統化工程”,因此在企業的接受速度方面要落後於整個業界的炒作。大數據技術用了多年時間進行演化,才從一種看起來很酷的新技術變成企業在生產環境中實際部署的核心企業級系統。

2017年,我們已經很適應這樣的部署階段。“大數據”這個詞正在逐漸淡出我們的視野,但這種技術本身還在飛速擴張。各行各業的各種軼事和證據證明相關產品越來越成熟,在越來越多的財富1000強企業內開始投入實用,很多初創公司借助這些技術快速實現了收入增長。

與此同時,宣傳炒作的泡沫開始毋庸置疑地轉向了這個生態系統中機器學習和人工智能等領域。過去幾個月來,人工智能領域湧現出一種“大爆炸”式的集體意識,這一情況與幾年前大數據技術的“遭遇”相差無幾,不過發展速度更快。

從另一個角度來看,2017年也是激動人心的一年:望穿秋水的IPO。今年頭幾個月,大數據領域的初創公司在這方面活動頻頻,並得到了公開市場的熱切歡迎。

總的來說,數據生態系統在2017年終於實現了火力全開。

從上層趨勢來說:

大數據 + 人工智能 = 全新技術棧

企業的預算:逐利

企業數據正在陸續上雲

大數據與人工智能強強聯合,我們即將進入“收獲”的季節。忽略各種炒作,我們迎來了數量眾多的可能性。

隨著核心基礎架構以及應用程序端日漸成熟,人工智能技術驅動的應用將迎來井噴期,2017年,大數據(以及人工智能)生態幾將火力全開。

大數據不僅會越來越火,還會一直火下去!

回答二:根據數據顯示,目前全國的大數據人才只有46萬,未來3-5年內大數據人才的缺口將高達150萬多,大數據行業將面臨全球性的人才荒。 領英發布的《2016年中國最熱職位人才報告》基於領英平臺上約50萬的中國各個行業人才大數據的分析,報告表明,數據分析人才最為稀缺。

[大數據工程師發展空間巨大]

在互聯網時代,每天都有海量的數據信息產生,數據的處理變得越來越復雜,很多大公司已經在尋求擁有實戰經驗的高手來填充自己實力。全國大數據人才主要分布在經濟發達的大城市及大數據行業發展優先的城市,各區域想要吸引更多的大數據人才不僅要制定相關的政策,同時也要大力發展與大數據相關的企業。

大數據行業平均月薪高達21.2K,高居互聯網行業榜首,遠高於排名二三位的物聯網和智能硬件行業。大數據行業的火爆,帶動了數據分析師薪資的水漲船高,過去一年相關職位薪資漲幅達到19%。

回答三:站在營銷的角度說這件事。近年來,隨著房地產熱,電商沖擊等因素,實體經濟越來越低迷。面對房租不斷上漲的實體銷售渠道,單純的依靠進店人數已經難以支撐,必須改變被動的營銷模式。抓住用戶,吸引用戶到店是所有商家面臨的難題。必須采取精準化的營銷手段改變現狀,這時候大數據就是實現這個目的的手段,越來越多的企業也提供大數據方面的支撐替代原有傳統媒體的這方面職能。

NO.2 怎樣自學大數據?

回答一:  一、數據分析師有哪些要求?

  1、理論要求及對數字的敏感性,包括統計知識、市場研究、模型原理等。

  2、工具使用,包括挖掘工具、數據庫、常用辦公軟件(excel、PPT、word、腦圖)等。

  3、業務理解能力和對商業的敏感性。對商業及產品要有深刻的理解,因為數據分析的出發點就是要解決商業的問題,只有理解了商業問題,才能轉換成數據分析的問題,從而滿足部門的要求。

  4、匯報和圖表展現能力。這是臨門一腳,做得再好的分析模型,如果不能很好地展示給領導和客戶,成效就大打折扣,也會影響到數據分析師的職業晉升。

  二、請把數據分析作為一種能力來培養

  從廣義來說,現在大多數的工作都需要用到分析能力,特別是數據化運營理念深入的今天,像BAT這樣的公司強調全員參與數據化運營,所以,把它作為一種能力培訓,將會讓你終生受益。

  三、從數據分析的四個步驟來看清數據分析師需具備的能力和知識:

  數據分析的四個步驟(這有別於數據挖掘流程:商業理解、數據理解、數據準備、模型搭建、模型評估、模型部署),是從更宏觀地展示數據分析的過程:獲取數據、處理數據、分析數據、呈現數據。

  (一) 獲取數據

  獲取數據的前提是對商業問題的理解,把商業問題轉化成數據問題,要通過現象發現本質,確定從哪些緯度來分析問題,界定問題後,進行數據的采集。此環節,需要數據分析師具備結構化的思維和對商業問題的理解能力。

  推薦書籍:《金字塔原理》、麥肯錫三部曲:《麥肯錫意識》、《麥肯錫工具》、《麥肯錫方法》

  工具:思維導圖、mindmanager軟件

  (二) 處理數據

  一個數據分析項目,通常數據處理時間占70%以上,使用先進的工具有利於提升效率,所以盡量學習最新最有效的處理工具,以下介紹的是最傳統的,但卻很有效率的工具:

  Excel:日常在做通報、報告和抽樣分析中經常用到,其圖表功能很強大,處理10萬級別的數據很輕松。

  UltraEdit:文本工具,比TXT工具好用,打開和運行速度都比較快。

  ACCESS:桌面數據庫,主要是用於日常的抽樣分析(做全量統計分析,消耗資源和時間較多,通常分析師會隨機抽取部分數據進行分析),使用SQL語言,處理100萬級別的數據還是很快捷。

  Orcle、SQL sever:處理千萬級別的數據需要用到這兩類數據庫。

  當然,在自己能力和時間允許的情況下,學習新流行的分布式數據庫及提升自身的編程能力,對未來的職業發展也有很大幫助。

  分析軟件主要推薦:

  SPSS系列:老牌的統計分析軟件,SPSS Statistics(偏統計功能、市場研究)、SPSS Modeler(偏數據挖掘),不用編程,易學。

  SAS:老牌經典挖掘軟件,需要編程。

  R:開源軟件,新流行,對非結構化數據處理效率上更高,需編程。

  隨著文本挖掘技術進一步發展,對非結構化數據的分析需求也越來越大,需要進一步關註文本挖掘工具的使用。

  (三) 分析數據

  分析數據,需要用到各類的模型,包括關聯規則、聚類、分類、預測模型等,其中一個最重要的思想是對比,任何的數據需要在參照系下進行對比,結論才有意義。

  推薦的書籍:

  1、《數據挖掘與數據化運營實戰,思路、方法、技巧與應用》,盧輝著,機械出版社。這本書是近年國內寫得最好的,務必把它當作聖經一樣來讀。

  2、《誰說菜鳥不會數據分析(入門篇)》和《誰說菜鳥不會數據分析(工具篇)》,張文霖等編著。屬於入門級的書,適合初學者。

  3、《統計學》第五版,賈俊平等編著,中國人民大學出版社。比較好的一本統計學的書。

  4、《數據挖掘導論》完整版,[美]Pang-Ning Tan等著,範明等翻譯,人民郵電出版社。

  5、《數據挖掘概念與技術》,Jiawei Han等著,範明等翻譯,機械工業出版社。這本書相對難一些。

  6、《市場研究定量分析方法與應用》,簡明等編著,中國人民大學出版社。

  7、《問卷統計分析實務—SPSS操作與應用》,吳明隆著,重慶大學出版社。在市場調查領域比較出名的一本書,對問卷調查數據分析講解比較詳細。

  (四) 呈現數據

  該部分需要把數據結果進行有效的呈現和演講匯報,需要用到金字塔原理、圖表及PPT、word的呈現,培養良好的演講能力

回答二:這朋友首先要明白一個道理,大數據是一個泛化的概念。就像互聯網,計算機這樣的專有名詞,比如一個人問你我如何去學習互聯網,你一定會告訴他,互聯網一個泛指的概念,它包括方方面面很多細分的項目,你想自學的大數據也是非常泛化的概念,就拿你擅長的Java這個工具。她也能在大數據上的擁有廣泛的應用。
包括數據庫集群技術,分布式技術,還有網站性能優化,包括CDn鏡像技術虛擬化,雲計算共享,存儲海量數據等。我個人的建議,你如果擅長Java的話,您完全沒有必要自學。因為任何一個語言任何一個工具都要在一個大的使用場景的人來實現,那麽我的建議是你參加一個針對性的項目培訓,以後去應聘到相關的公司參加項目小組。因為雲計算是個泛指的概念有很多門類,你的這個專業可以通過你的小組參加具體的實踐項目。
進而達到提升的目的。通過參與具體的項目,你可以接觸到雲計算的方方面面,最起碼是概念上的方方面面,然後具體可以從你擅長的專業角度有所突破。你想在大數據企業就業的話,獲得一個大企業的認證非常重要。目前國內最火的雲計算,應該屬於阿裏雲。那麽你首先應該取得阿裏雲的企業級的認證。包括阿裏雲的數據處理和分析。報表場景的實現,企業自主平臺阿裏雲的企業認證,包括ACp11003模塊等等。以上說了一大堆廢話,給你的最終的建議就是:參加一個團隊,上手一個項目,獲取商業應用的經驗後,以一個有經驗的大數據平臺工作人員的身份,跳槽到更高層級的企業。你們職業發展薪資待遇就會有一個更大的提升。

NO.3 大數據到底有沒有前途,培訓選擇大數據值嗎?

回答:如今,任何大數據平臺的搭建和維護都需要成建制的數據工程師和數據科學家。過去兩年間每年有數十個大數據平臺在啟動和搭建,這就在短時間內形成了對數據工程師和數據科學家的巨大需求,而在大數據人才的供應特別是高端人才供應方面則受到人才保有量不足和人才培養周期長的制約。如果我們從大學入學開始計算,加上軟件開發和數據算法建模等方面工作經驗的形成,培養一個合格的數據工程師和數據科學家至少需要五到十年的時間。

當前一個明顯的事實是,大數據人才培養速度明顯低於大數據發展和應用的速度。據調查,盡管全國50%的大數據人才集中在北京,但是北京的互聯網公司仍然普遍遇到了合格的大數據人才“招聘難”和“留人難”的問題。

在中國,目前出現在各類招聘平臺上與數據分析相關的招聘需求比去年同期相比,增長率高達67%;大數據相關高級職位的薪酬與其他同類技術職位相比平均高出43%以上。各行各業對大數據人才的需求,以及技術從業者希望躋身大數據高級人才的需求變得越來越強烈。

可以預見,在未來世界,國家之間、區域之間甚至是公司之間的大數據人才的爭奪戰,將是愈演愈烈的。有鑒於此,建立中國的大數據人才平臺,對大數據人才問題進行超前研究,並且未雨綢繆,加大人才培養和引進的力度,應該引起領導者與人才規劃部門更多的重視。

大數據的發展史一個全球化的趨勢,大數據時代已經到來。不少已經在工作或者大學剛畢業的朋友都想投身到大數據行業。

NO.4 大數據是如何展示的?

回答:將數據轉化成可視化圖表/形,其實一個工具就能完成,礙於工具太多,按照使用場景,暫且將已成熟應用的分為三個層次:

  第一層:數據報告、信息圖

  這裏統稱信息圖。信息圖是把數據、信息或知識可視化,必須要有一個清楚準確的解釋或表達甚為復雜且大量的信息。

  代表人物是新聞界的David McCandless(大衛. 麥克坎德雷斯),曾為《英國衛報》、《連線》、《獨立報》等刊物撰稿。常以簡潔精美的圖像展現復雜抽象資訊,並將不同的數據組合,展現其中的聯系。他在TED上曾講過:

  可視化並不局限於數字,概念也同樣適用,比如政治傾向圖譜。我試圖將各種政治傾向融入到圖表中,並展示其如何從政府滲透到社會、文化中,對家庭和個人產生影響,繼而又反過來影響政治。

  第二層:實際數據應用

  應用類的可視化正如上面所說的,將一堆幾百到即使幾百萬不等的數據展示、分析。對於企業,因為這些數據本身是自己生產經營過程中產生的,能反映歷史的狀況,總結發展之道,對目前的問題或者未來下一步的決策起到輔助作用。

  這樣的工具excel能解決,報表工具能解決,BI也能解決,具體細化到什麽樣的場景不是這裏的重點,大家可以在下面評論交流。

  通常的制作流程是:導入數據(excel)/連接數據庫(本地/服務器)——選擇圖表(組合)——設定分析維度——美化展示。比如像這種濃濃的帶有商業味道的可視化報表(由FineReport制作):

  第三層:據挖掘、數據連接、關系傳遞

  這個可以理解為從海量數據中挖掘關系。

  大致思路:原始數據經過一連串收集、提取、清洗、整理等預處理過程,形成高質量的數據。然後按照需要對數據貼標簽分類或者預測,如果要從大量復雜的數據中提取有價值且不易發現的信息還要數據建模。(細節可能各有不同)

  比較適用的是一寫高級的數據分析挖掘工具以及開源圖表控件,如R,如D3。

  用R做可視化,比較容易做出漂亮的可視化圖表,推薦書籍R Graphics Cookbook,書中有150多個recipes,足夠應付大多類型的數據。

  D3做圖可以定制,美觀圖圖表的豐富性秒殺大多圖表控件,但要求的水平有一丟丟高。

 

NO.5 什麽是征信大數據?

回答:這個文章不僅能讓你明白什麽是大數據征信,更能讓你明白其中問題所在。

聲明:本文僅為大數據應用的探討×××流,非對所提及企業之評價,如有問題,請聯系扯蛋家,扯蛋家將在第一時間刪除。

先從芝麻信用說起,對,就是支付寶裏的那個芝麻信用。

芝麻信用應該是目前私營企業裏,在個人征信上做的最好的了。從扯蛋家平時使用情況看,它的模型是比較容易猜出來的,應該是基於以下數據的分析運用:淘寶天貓數據、其它平臺使用支付寶購物數據(如各類電商網站、12306等)、支付寶上的金融數據(余額、余額寶、轉入/轉出等)、支付寶的應用(如還信用卡、水電等繳費),以及可能涉及到一些三方數據(快遞、銀行工資流水等),等等。

芝麻信用為消費者帶來了一些便利,如共享單車評芝麻信用可以免押金。

但扯蛋家認為問題也在這裏。

作為消費者,使用一個企業的服務,企業掌握了消費者的數據,在內部分析使用是否恰當,尚須註意度的問題。如果把數據打包成一個產品,某種程度上是超越了企業對消費者數據的使用權限,如果把千千萬萬消費者的數據聚集起來,成為芝麻信用這樣的產品,且不斷的商業化使用,扯蛋家認為,這顯然已經大大的有濫用消費者隱私數據的嫌疑。

何況,支付寶中,大量的信息,在消費者端出發點僅是方便自己繳費(支付寶在宣傳上也在一直在“便利”上引導),他們完全不知道生活繳費代表的意義:如果你的支付寶賬號、激電費的戶頭是一樣的,那麽可以判斷你是有房的,根據你水電費的水平,也可以估算出你的消費能力;如果你經常換著賬戶交水電費,那說明你不斷的換房子租住…。這樣的分析,還算是相對來說較簡單的。

所以,芝麻信用,這個產品,從根本上來說,它的誕生、使用,不能說非法,但至少在灰色地帶。

如果說掌握了數據,就可以打包產品,扯蛋家就認為中國移動應該是在征信上更有優勢,更應該推出這樣的產品。

因為作為市場份額70%的運營商,它掌握了消費者所有銀行端、網端的消費情況、信用卡刷卡情況、還款情況等,中國移動也能分析出來你網購的頻率及水平,打個比方,怎麽掌握你的網購頻率:簡單點的作法是通過算法計算你跟快遞員聯系頻次、快遞員給你聯系頻次等等。

所以,其它企業不是做不出芝麻信用這樣的產品,而是因為這樣做本身就有太多需要確定的地方。有報道說,當年騰訊也提出了這樣的產品,但讓馬化騰以“倒買倒賣個人數據”為由給槍斃了,芝麻信用這個產品,其實就是在這麽幹。

進一步,如果這樣做都可以,那我選擇去做私家偵探,因為通過運營商的數據,太容易確定一個人的位置、分析出一個人有幾個情人、償債能力、三角債的實際情況等。

之前曾有人指出芝麻信用的數據應用問題,但阿裏的回復是芝麻信用的數據源自杭州某公司,等等,意思是法律上是合規的。怎麽說呢,依賴於強大的公司實力,請牛逼的法律顧問,設計一個完全合法合規的架構,當然是非常簡單的了。但從另一個角度來說,阿裏也給自己留足了空間隨時切割,說明自己也意識到了這些產品的問題。

前段時間,運營商界著名大嘴,曾經的中國移動著名的工號70員工寧宇發表了一篇文章《請不要把你家的鑰匙交給陌生人保管》,在摘要中直接給出結論:互聯網公司正在誘導用戶主動提供隱私。

寧宇在文中還詳細說明了支付寶授權查詢話費賬單的問題所在:消費者授權支付寶後,支付寶可以隨時查詢通話詳單,什麽是詳單,就是記錄了你給誰打電話、打了多少、你上了什麽網、上了多久的數據表。寧宇在文中比喻說這就像把房間鑰匙交給了別人,別人想翻你房間就翻,你怕不怕。

扯蛋家衷心希望大數據能走到實際應用中來,但也衷心希望政府能在數據應用的範圍、尺度上盡早明確法律要求。

NO.6 如何成為大數據架構師?
回答:首先一個大數據架構師,最起碼要熟悉H adoop Spark Storm等等主流大數據平臺的核心框架,而且要深入掌握如何編寫MapReducYarn HBase Hive pig 等等重要組件,能夠實現對平臺的監控。輔助運維護系統的開發。

技術分享圖片
另外,需要對面向過程,面向對象,面向服務等設計理念要有深刻的理解,可以做到快速的察覺出現實中的問題並提出相應的改進方案。

技術分享圖片

在技術能力上架構師需要掌握包括進程內通信 對象訪問 高數調用 數據交換 線程同步等等,以及進程外技術,如RMI DCOM WebSevice
技術分享圖片

總之一個架構師是一直在不斷創新,完善自己,而且表現的更為突出,我只清楚這麽多,

今天就分享到這裏,希望大家多多關註!

第四期:有關大數據相關問答匯總,持續更新哦~