1. 程式人生 > >關於大資料最常見的10個問題

關於大資料最常見的10個問題

1、雲端計算與大資料是什麼關係?

  雲端計算的關鍵詞在於“整合”,無論你是通過現在已經很成熟的傳統的虛擬機器切分型技術,還是通過google後來所使用的海量節點聚合型技術,他都是通過將海量的伺服器資源通過網路進行整合,排程分配給使用者,從而解決使用者因為儲存計算資源不足所帶來的問題。

  大資料正是因為資料的爆發式增長帶來的一個新的課題內容,如何儲存如今網際網路時代所產生的海量資料,如何有效的利用分析這些資料等等。在這裡還是要推薦下我自己建的大資料學習交流群:199427210,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

  他倆之間的關係你可以這樣來理解,雲端計算技術就是一個容器,大資料正是存放在這個容器中的水,大資料是要依靠雲端計算技術來進行儲存和計算的。

兩者關係:

  首先,雲端計算是提取大資料的前提。

  資訊社會,資料量在不斷增長,技術在不斷進步,大部分企業都能通過大資料獲得額外利益。在海量資料的前提下,如果提取、處理和利用資料的成本超過了資料價值本身,那麼有價值相當於沒價值。來自公有云、私有云以及混合雲之上的強大的雲端計算能力,對於降低資料提取過程中的成本不可或缺。

  其次,雲端計算是過濾無用資訊的“神器”。

  首次收集的資料中,一般而言,90%屬於無用資料,因此需要過濾出能為企業提供經濟利益的可用資料。在大量無用資料中,重點需過濾出兩大類,一是大量儲存著的臨時資訊,幾乎不存在投入必要;二是從公司防火牆外部接入到內部的網路資料,價值極低。雲端計算可以提供按需擴充套件的計算和儲存資源,可用來過濾掉無用資料,其中公有云是處理防火牆外部網路資料的最佳選擇。

  再次,雲端計算可高效分析資料。

  資料分析階段,可引入公有云和混合雲技術,此外,類似Hadoop的分散式處理軟體平臺可用於資料集中處理階段。當完成資料分析後,提供分析的原始資料不需要一直保留,可以使用私有云把分析處理結果,即可用資訊匯入公司內部。

  最後,雲端計算助力企業管理虛擬化。

  可用資訊最終用來指導決策,通過將軟體即服務應用於雲平臺中,可將可用資訊轉化到企業現有系統中,幫助企業強化管理模式。

  上升到我國網際網路整體發展層面,雖然我國在網際網路服務方面具有領先的優勢,然而,越來越多的企業認識到,與雲端計算的結合將使大資料分析變得更簡單,未來幾年,如能在大資料與雲端計算結合領域進行深入探索,將使我們在全球市場更具競爭力,這是非常關鍵的問題。

2、大資料需要什麼人才?

  大資料需要以下六類人才:

  大資料系統研發工程師

  這一專業人才負責大資料系統研發,包括大規模非結構化資料業務模型構建、大資料儲存、資料庫構設、優化資料庫構架、解決資料庫中心設計等,同時,還要負責資料叢集的日常運作和系統的監測等,這一類人才是任何構設大資料系統的機構都必須的。

  大資料應用開發工程師

  此類人才負責搭建大資料應用平臺以及開發分析應用程式,他們必須熟悉工具或演算法、程式設計、優化以及部署不同的MapReduce,他們研發各種基於大資料技術的應用程式及行業解決方案。其中,ETL開發者是很搶手的人才,他們所做的是從不同的源頭抽取資料,轉換並匯入資料倉庫以滿足企業的需要,將分散的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫,成為聯機分析處理、資料探勘的基礎,為提取各型別的需要資料創造條件。

  大資料分析師

  此類人才主要從事資料探勘工作,運用演算法來解決和分析問題,讓資料顯露出真相,同時,他們還推動資料解決方案的不斷更新。隨著資料集規模不斷增大,企業對Hadoop及相關的廉價資料處理技術如Hive、HBase、MapReduce、Pig等的需求將持續增長,具備Hadoop框架經驗的技術人員是最搶手的大資料人才,他們所從事的是熱門的分析師工作。

  資料視覺化工程師

  此類人才負責在收集到的高質量資料中,利用圖形化的工具及手段的應用,清楚地揭示資料中的複雜資訊,幫助使用者更好地進行大資料應用開發,如果能使用新型資料視覺化工具如Spotifre,Qlikview和Tableau,那麼,就成為很受歡迎的人才。

  資料安全研發人才

  此類人才主要負責企業內部大型伺服器、儲存、資料安全管理工作,並對網路、資訊保安專案進行規劃、設計和實施,而對於資料安全方面的具體技術的人才就更需要了,如果資料安全技術,同時又具有較強的管理經驗,能有效地保證大資料構設和應用單位的資料安全,那就是搶手的人才

  資料科學研究人才

  資料科學研究是一個全新的工作,夠將單位、企業的資料和技術轉化為有用的商業價值,隨著大資料時代的到來,越來越多的工作、事務直接涉及或針對資料,這就需要有資料科學方面的研究專家來進行研究,通過研究,他們能將資料分析結果解釋給IT部門和業務部門管理者聽,資料科學專家是聯通海量資料和管理者之間的橋樑,需要有資料專業、分析師能力和管理者的知識,這也是搶手的人才。

3、大資料行業的從業者是從哪獲得資料的?

  大資料行業的從業者有多種途徑獲得資料,也就是我們常說的資料來源,具體有一下幾種:

  1、官方資料(政府部門或企業直接提供的資料或資料介面);

  2、半官方資料:如各類行業協會,俱樂部;

  3、各個平臺的資料:如淘寶網、京東、唯品會,有些會免費開發資料,還有一部分是付費的資料軟體;

  4、再然後就是從業者自己收集的資料,一般都是用一些資料採集工具或軟體,工具如:爬蟲軟體,百度蜘蛛等;

  5、最後就是購買的資料,一般有一些專門資料採集的機構,像像艾瑞、浪潮,以及傳統的調研企業。

  資料的獲取方式有很多種,同樣,資料的使用方式也有很多種,比如說行業銷售趨勢,有人用銷售額資料,有人用銷量資料。資料就像一個任人打扮的姑娘,使用的人會選取自己想要的資料來展示,所以考量資料的真實性,一個是資料來源,還有就是資料的選擇是否合理。

4、大資料分析的常用方法有哪些?

  1. Analytic Visualizations(視覺化分析)

  不管是對資料分析專家還是普通使用者,資料視覺化是資料分析工具最基本的要求。視覺化可以直觀的展示資料,讓資料自己說話,讓觀眾聽到結果。

  2. Data Mining Algorithms(資料探勘演算法)

  視覺化是給人看的,資料探勘就是給機器看的。叢集、分割、孤立點分析還有其他的演算法讓我們深入資料內部,挖掘價值。這些演算法不僅要處理大資料的量,也要處理大資料的速度。

  3. Predictive Analytic Capabilities(預測性分析能力)

  資料探勘可以讓分析員更好的理解資料,而預測性分析可以讓分析員根據視覺化分析和資料探勘的結果做出一些預測性的判斷。

  4. Semantic Engines(語義引擎)

  由於非結構化資料的多樣性帶來了資料分析的新的挑戰,需要一系列的工具去解析,提取,分析資料。語義引擎需要被設計成能夠從“文件”中智慧提取資訊。

  5. Data Quality and Master Data Management(資料質量和資料管理)

  資料質量和資料管理是一些管理方面的最佳實踐。通過標準化的流程和工具對資料進行處理可以保證一個預先定義好的高質量的分析結果。

5、央行徵信和大資料徵信的不同之處

  1、確實有不同之處,央行徵信是傳統徵信方式,大資料徵信是伴隨網際網路金融發展起來的。

  2、央行徵信與大資料徵信差異主要從徵信資料來源、權威性、資料完整性、用途等維度區分。

  3、央行徵信特點:資料主要來自銀行、證券、保險、社保等體系裡構成一個數據迴圈,權威性高,資料基本完整,主要用於資產評估、銀行放貸、信用卡額度等。

  5、大資料徵信特點:資料主要來自網際網路各大平臺,使用網際網路技術抓取或介面合作獲取徵信資料,資質再好一點的企業可以申請接入央行徵信,權威性不如央行徵信,但隨著網際網路金融的發展會越來越重要,資料完整性各大資料徵信平臺不同,主要用於網際網路金融,例如P2P,如果p2p拿不到央行徵信資料風險會很大。

  6、展望未來:隨著網際網路金融的發展,大資料徵信與央行徵信會不斷融合直至融為一體,真正的滿足資料的完整性,那違法犯罪基本就真的大大減少了,信用真的就是錢!

6、如何構建銀行業大資料分析平臺?

  一是銀行與電商平臺形成戰略合作。銀行業共享小微企業在電商平臺上的經營資料和經營者的個人資訊,由電商平臺向銀行推薦有貸款意向的優質企業,銀行通過交易流水、買賣雙方評價等資訊,確定企業資信水平,給予授信額度。建設銀行曾在這方面做過有益的嘗試。此外也有銀行參股電商、開展資料合作的案例。

  二是銀行自主搭建電商平臺。銀行自建電商平臺,獲得資料資源的獨立話語權。在為客戶提供增值服務的同時,獲得客戶的動態商業資訊,為發展小微信貸奠定基礎,是銀行搭建電商平臺的驅動力。2012年,建設銀行率先上線“善融商務”,提供B2B和B2C客戶操作模式,涵蓋商品批發、商品零售、房屋交易等領域,為客戶提供資訊釋出、交易撮合、社群服務、線上財務管理、線上客服等配套服務,提供的金融服務已從支付結算、託管、擔保擴充套件到對商戶和消費者線上融資服務的全過程。

  三是銀行建立第三方資料分析中介,專門挖掘金融資料。例如,有的銀行將其與電商平臺一對一的合作擴充套件為“三方合作”,在銀行與電商之間,加入第三方公司來負責資料的對接,為銀行及其子公司提供資料分析挖掘的增值服務。其核心是對客戶的交易資料進行分析,準確預測客戶短時間內的消費和交易需求,從而精準掌握客戶的信貸需求和其他金融服務需求。

  銀行業有處理資料的經驗和人才。資料分析和計量模型技術在傳統資料領域已得到較充分運用,同時也培養出大批精通計量分析技術的人才。如在風險管理方面,我國金融監管部門在與國際接軌過程中,引入巴塞爾新資本協議等國際準則,為銀行業提供了一套風險管理工具體系。銀行在此框架下,利用歷史資料測度信用、市場、操作、流動性等各類風險,內部評級相關技術工具已發揮出效果,廣泛應用於貸款評估、客戶准入退出、授信審批、產品定價、風險分類、經濟資本管理、績效考核等重要領域。

7、為什麼需要大資料技術?

  大資料到底是什麼?我們為什麼需要大資料技術?

  Mike Jude:從本質上來說,大資料就是曾經被稱為資料倉庫的邏輯延伸。顧名思義,大資料就是一個大型的資料倉庫,一般有一個能支援業務決策的業務重點。但是,它和傳統資料庫不同的是,大資料不用構建。

  在典型的資料庫中,資料會被組織成標準的欄位,並使用特定的金鑰索引。如果你熟悉Microsoft Access應用程式,那麼你就能完全理解這個概念。比如,一個顧客記錄可以由姓氏、名字、地址和其它資訊組成有通用標籤的欄位。每個顧客記錄樣式都是相同的,這樣可以通過使用搜索關鍵詞來檢索,比如搜尋姓氏。

  現在,如果你想連結到這些客戶記錄需要怎麼做?連結到客戶的圖片或者視訊呢?如果是連結到客戶的所有記錄呢?

  將這麼多不同的資料來源互相對映,一般的資料庫還做不到。另外,需要連結的資料量是非常巨大的。這就產生了“大資料”的概念。大資料使用特殊的資料結構來組織和訪問巨大數量的資料,可能達到多個艾位元組的範圍。一般情況下,這需要跨多個伺服器和離散資料儲存進行平行計算,而小企業往往難以維持這種大資料的儲存庫。但是,大資料正逐漸成為雲服務提供商能提供的一種服務,從而把大資料應用推向更多的公司。

  但是,還有一個“大”問題,就是我們為什麼需要大資料?答案就是相關性的價值。如果你能看到乍一看似乎沒什麼關係的資料設定之間的關係,你會獲取很多重要資訊。比如你想知道你的公司是不是容易被黑客利用。那麼你需要跨多個應用程式和資料中心檢查無數條交易。這時如果沒有大資料技術和相關的分析技術,這幾乎是不可能完成的。

  最終,隨著資料量的增長、業務的可用性和重要性的增加,大資料的定義可能會用來描述大多數資料庫應用。IT專業人士應該掌握大資料相關概念和術語,以免遇到困難。

8、企業大資料如何起步?

  大資料應該是從小資料逐漸演變上去的,是一個正常的生態,而不是瞬間變化的。

  大資料這個概念跟自媒體的概念類似,需要企業自己去建設,而不是從一開始就想著依靠別人。很多企業在談自媒體的時候,像談別人的事情一樣。比如一談自媒體,就覺得那是第三方提供的一個平臺,大家在那兒發發牢騷。自媒體是自己的媒體,企業自己也要參與進去。同樣大資料不是別人的大資料,我們假設有一個第三方提供了大量的資料,有很多很多資訊,CI、BI之類的很多模組化東西供我們來用。如果這樣的話,你有,競爭對手也有,你能得到的東西,競爭對手也能得到的情況下,就不能稱之為核心競爭力。

  大資料作為企業來說要變成自身的一個競爭力,企業必須得建立自己的企業級的資料。

  要做大資料,首先要了解自己的企業,或者自己所在的行業的核心是什麼。我們現在經常發現,有很多企業在競爭的過程中,最終不是被現在的競爭對手打敗,而是被很多不是你的競爭對手所打敗。很簡單的一個例子,大家都認為亞馬遜是做電商的,但這是錯的,它現在最主要的收入來自於雲(雲服務)。也就是說企業需要找到自己的核心資料(價值),這個是最關鍵的。只有在這個基礎上,建立自己的大資料才有可能,才能做一些延伸。其次,要找到內部的一些外圍相關資料,去慢慢地成長它。有點像滾雪球,第一層是核心,第二層是外圍相關的資料。第三層是什麼?就是外部機構的一些結構化資料。第四層是社會化的,以及各種現在所謂的非結構化的資料。這幾層要一層一層地找到它,而且要找到與自己相關的有價值的東西。這樣你的大資料才能建立起來。

  第一步,找到核心資料。核心資料現在對很多企業來說實際上就是CRM,自己的使用者系統,這是最重要的。

  第三步,常規渠道的資料。舉例來說一個銷售快銷品的企業,能不能夠得到沃爾瑪的資料,家樂福的資料?很多國外大資料的案例,說消費者買啤酒的時候也會購買剃鬚刀之類,或者一個母嬰產品的消費者她今天在買這個產品,預示著她後面必然會買另一個產品。這就有一個前期的挖掘。這些價值怎麼來的,這就需要企業去找常規渠道里面的資料,跟自己的CRM結合起來,才能為自己下一步做市場營銷、做推廣、產品創新等建立基礎。

  第四步,外部的社會化的或者非結構化的資料,即現在所謂的社會化媒體資料。這方面資訊的主要特徵是非結構化,而且非常龐大。這對企業來說最大的價值是什麼?當你的使用者在社會化媒體上發言的時候,你有沒有跟他建立聯絡?這裡有個概念叫做DC(digital connection)。所謂的網際網路實際就是一種DC,但是通常網際網路上的那種DC是在娛樂層面。用到商業裡面的話,就是企業必須得跟消費者建立這種DC關係,它的價值才能發揮出來。否則,你的資料以及很多的CRM資料都是死的。就像國外CRM之父Paul Greenberg寫的四本CRM相關書籍,前面三本都是在講資料庫、系統之類的。第四本書的時候,就沒有再講那些東西,講什麼?講互動,講DC,講怎麼跟消費者建立關係。

  有了這個資料庫去進行資料探勘,或者在建立資料的過程中,企業需要從什麼方向去探索,也不是漫無目的的。首先應該跟著你的業務,業務現在有哪些問題,或者說這個行業裡面主要的競爭點在哪裡,這是很關鍵的。有了這個業務關係以後,再形成假設,也就是說未來的競爭點可能在哪裡,大到未來的戰略競爭,小到哪些方面。然後下一步要怎麼做,這些形成一個假設,其次做一些小樣本的測試。

  很多企業一看大資料就很恐怖,說我也買不起那些大資料,也僱不起那麼專業的團隊,怎麼辦?

  自己做一些小樣本的測試,甚至通過電子表格Excel都可以做資料探勘。不一定非要那麼龐大、那麼貴的資料。然後再做大樣本的驗證,驗證出來的結果就可以應用到現實中去。在大資料尤其是網際網路時代還有一個最重要的點,就是失效預警。即你發現一個規律,在現實中應用了,但是你一定要設立一些預警指標。就是當指標達到什麼程度的時候,之前發現的規律失效,那你就必須發現新的、相關的,否則也會造成一種浪費。筆者看到一篇文章,其中有一個重要結論。大家都在說大資料的價值很有用的時候,很多企業說我積累了多少TB,多少PB,但是你基於老的資料得出的很多結論實際是在浪費你的資源。你挖掘出來很多資料、很多規律,如果錯了,明天按這個去做,就是浪費。因此需要有一個失效預警。在這樣的過程中,最終你需要對應建立起內部團隊,他們對資料的敏感度也才能培養起來。這時候你再去買大資料服務的時候才是有價值的。

  所有這些工作作為企業來說是需要內部去做的,最終才能開花結果,有一些收穫。企業大資料起步,要從小資料開始。

9、大資料處理中資料質量監控從哪幾個方面進行?

  大資料處理中資料質量監控,從以下幾個方面進行:

  資料容量(Volume):資料的大小決定所考慮的資料的價值的和潛在的資訊;

  資料種類(Variety):資料型別的多樣性;

  資料速度(Velocity):指獲得資料的速度;

  資料可變性(Variability):妨礙了處理和有效地管理資料的過程;

  資料真實性(Veracity):資料的質量;

  資料複雜性(Complexity):資料量巨大,來源多渠道。

  “大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

10、大資料是否存在泡沫呢?

  這是必然的,任何一個影響極大的“概念”被炒作起來後,都會在一段時間內形成強大的原動力,使各行各業的人們為之付出或真或假、或實或虛的努力,群眾的力量是龐大的,因此這一新事物將有力的推動一下歷史的程序,當又一個新的技術或理論出來後,前一個被推向高潮的概念就成了泡沫了。

  “大資料”是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,靠人腦是無法進行處理的,結論的真假優劣完全取決於使用的軟體,所以其結果絕非完美無瑕,作為商業用途,能夠提供一些參考,既然只能作為一個參考,那麼將之推高到一定程度的時候就會形成泡沫,漸漸被人遺棄和遺忘。

  沒有常青的技術。推陳出新才是歷史的必然。

大資料學習支付寶螞蟻森林好友推薦系統:https://v.qq.com/x/cover/f8q3q3pfzq1a9ne.html