1. 程式人生 > >想成為大資料分析師必須知道的這些事兒(文末福利)

想成為大資料分析師必須知道的這些事兒(文末福利)

​點選標題下「非同步社群」可快速關注

“不是所有有價值的都能被計算,不是所有能計算的都有價值。”

——阿爾伯特·愛因斯坦

觀察一下週圍的世界,你就會發現,幾秒鐘內會產生、捕獲並通過媒介傳輸龐大的資料。這些資料可能來自於個人計算機(PC)、社交網站、企業的業務或通訊系統、ATM機和許多其他渠道。

一些報告宣稱,在2002年的時候大約有5 EB(1 EB= 1 024 PB=260位元組)的線上資料。然而到了2009年,這個數字增長了56倍,達到281 EB。在2009年之後,該數字更是呈現了指數級的增長。這些資料以網路帖子、圖片、視訊和天氣資訊的形式不斷地產生出來。

如果對不斷產生的龐大資料進行合理分析,可能會產生巨大的價值,因為我們可以根據大量關鍵資訊做出更明智的決定。換句話說,仔細的分析可以把資料轉換為資訊,把資訊轉化成洞察力

對關鍵資料進行系統、全面的分析和輸出的需求,促使了一個火爆的術語——大資料的出現。

定  義

大資料是在可接受的時間內,對相關資訊或資料進行捕獲、儲存、搜尋、共享、傳輸、分析和視覺化的大型資料集。

大資料分析是通過檢查大量的資料來獲取洞察力的過程。

因為大資料是IT領域的一個時髦術語,它提供了許多新的就業和成長機會,本文簡介部分希望幫助你理解大資料的概念(大資料的重要性、型別和要素),同時引導你適應不斷增長的大資料環境以及與大資料相關聯的各種就業機會。

1.1 什麼是大資料

考慮如下事實:

  • 每一秒,全球消費者會產生10 000筆銀行卡交易。

  • 每小時,作為全球折扣百貨連鎖店的沃爾瑪需要處理超過100萬單的客戶交易。

  • 每天,數以百萬計的使用者在主流網站上產生資料,例如:

  • 每天,Twitter使用者發表5億篇推文;

  • 每天,Facebook使用者發表27億個贊和評論。

  • 射頻識別(RFID)系統產生的資料是條碼系統資料的近千倍。

資料無處不在,它以數字、影象、視訊和文字的形式存在於各個行業及業務功能中。

交叉參考 1.4節將詳細介紹資料的速度、容量和多樣性。

隨著資料量的不斷增長,需要有一種方法來對資料進行組織,使個人或組織可以將其當作資訊源來使用。這就是體現大資料價值的地方。

在IT行業,大資料指的是分析資料以獲得深入洞察力的藝術和科學。在大資料誕生之前,由於缺少訪問資料和處理資料的手段,這是不可能實現的。

大資料確實是“大”,其意義在於持續增長。任何從1 TB(1 TB=1 024 GB)增長到1 PB(1 PB=1 024 TB)繼而增長到1 EB(1 EB=1 024 PB)的資料均可稱為大資料。

1.1.1 大資料的優勢

在當今的競爭社會中,大資料是一種有發展前途的新興生產力和創新手段。通過對不同行業和地區的大資料進行系統性的研究,可以:

  • 更好地瞭解目標客戶;

  • 在醫療保健行業削減開支;

  • 增加零售業的營業利潤率;

  • 通過運營效率的提升帶來數十億美元的資金節省,等等。

縱觀各行各業,資料和資料分析可以在許多方面帶來顯著的業務流程的變革,例如:

  • 通過分析及跟蹤表現和行為提高運動成績;

  • 改善科研;

  • 通過更好的監控改善安全和執法;

  • 通過更多資訊化決策改進金融交易。

縱觀各個企業,對可用資料進行正確的分析可以在許多方面帶來顯著的業務流程的變革,例如:

  • 採購:找出哪些供應商在交貨及時、有效的情況下更節約成本。

  • 產品開發:提出對創新產品、服務形式和設計的深刻見解,強化開發流程,以期創造出符合要求的產品。

  • 製造:發現機械和流程方面的差異,預見質量問題。

  • 分銷:針對各種外部因素(如天氣、假日、經濟環境等),加強供應鏈活動,使最優庫存水平標準化。

  • 市場營銷:找出哪些市場活動能最有效地推動和吸引顧客,並洞悉顧客行為和渠道表現。

  • 價格管理:根據對外部因素的分析優化價格。

  • 銷售規劃:基於目前的購買模式,改進商品分類。根據對大量顧客行為的分析,改進庫存水平和產品利潤點。

  • 銷售:優化銷售資源、賬目、產品組合和其他經營活動的分配。

  • 店鋪運營:根據對購買模式的預期和對人口統計、天氣、關鍵事件及其他因素的研究,進行庫存水準的調整。

  • 人力資源:總結成功僱員和高效僱員的特質和行為,以及其他僱員的所思所想,以此來更好地管理人才。

與現實生活的聯絡

Google公司利用其強大的資料收集能力,能夠比現有公共服務提前大約兩週釋出流感預警。為了達到這個效果,Google監測了數百萬使用者的健康跟蹤行為,隨後進行了包括流感症狀、胸部充血、溫度計購買率在內的一系列調研。Google分析收集到的資料並生成反映美國流感告警級別的綜合結果。為了確定資料的精確性,在釋出資訊前,Google做了進一步的研究和資料比較。

1.1.2 挖掘各種大資料來源

術語大資料由“大量資料”演變而來。另外,它還涉及資料型別和資料來源多樣化的概念。表1-1-1展現了一些資料來源型別及其用途。

表1-1-1 資料來源型別及其用途對大資料的需求是顯而易見的。如果領導人和經濟體希望看到示範性的增長,並希望為自己的所有利益相關人產生價值,那麼請擁抱大資料,並將其廣泛地用於:

  • 允許以數字化形式儲存和使用業務資料;

  • 提供更多、更具體的資訊;

  • 細化分析,做出更好的決策;

  • 對顧客進行分類,根據購物模式提供個性化的產品和服務。

技術材料

IBM最新的大資料技術平臺利用具有專利技術的先進分析方法來探索這個充滿機遇的世界。大資料使企業能夠深入地理解新型的資料和內容型別,從而變得更加靈活。

知識檢測點1

一個製造業公司需要改善明年的銷售狀況,但是不知道該如何著手。該企業有銷售交易資料庫和客戶資料庫。你認為該企業應當如何利用這些資訊?

a.公司應該利用銷售資料來研究顧客行為,並採取相應的措施

b.公司給全體顧客傳送優惠券

c.公司無法利用自己的資料

d.公司應該著手開發新產品

1.2 資料管理的歷史——大資料的演化

速度、多樣性及資料量3個因素導致了資料演化進入了新階段——大資料階段。圖1-1-1展示了過去幾十年中我們在資料處理上面臨的挑戰。

圖1-1-1 大資料的演化

資訊科技、網際網路和全球化的浪潮有力地推動了資料和資訊產生量的指數級增長,導致了“資訊大爆炸”。這反過來促進了始於20世紀40年代,直到今日還方興未艾的大資料的演化程序。

定  義

對資訊大爆炸的描述包括兩個方面——釋出的資訊或資料量的持續增長,以及這些豐富的資訊或資料所產生的影響。

表1-1-2列出了大資料演化過程中的一些主要里程碑。

表1-1-2 大資料演化

年代裡 程 碑

20世紀40年代

一位美國圖書管理員推測出了書架和圖書編目工作人員的缺口,意識到了快速增長的資訊和有限儲存空間之間的矛盾

20世紀60年代

一篇名為《自動資料壓縮》(Automatic Data Compression)的論文發表在《ACM通訊》上。它指出在過去的幾年中,資訊大爆炸使得資訊的儲存必須最小化。
這篇論文把“自動資料壓縮”描繪成全自動的、快速的三部分壓縮器,可以用來壓縮任何形式的資訊,以便減少對慢速的外部儲存的需求,進而提高計算機系統的傳輸效率

20世紀70年代

日本郵政為了跟蹤國內的資訊迴圈量,提出了一個資訊流研究專案

20世紀80年代

匈牙利中央統計局為了統計國家的資訊產業,啟動了包括以位(bit)為計量單位測量資訊量在內的一個研究專案

20世紀90年代

儲存系統發展為比紙張儲存經濟得多的數字儲存。
與資料量和過時資料相關的挑戰已變得顯而易見,有大量的相關論文發表。舉幾個例子來說:
• Michael Lesk發表了How much information is there in the world?

20世紀90年代

• John R. Masey發表了一篇題為Big Data…and the Next Wave of InfraStress的論文
• K.G. Coffman和Andrew Odlyzko發表了The Size and Growth Rate of the Internet
• Steve Bryson、David Kenwright、Michael Cox、David Ellsworth和Robert Haimes聯合發表了Visually Exploring Gigabyte Datasets in Real Time

2000年以後

• 許多研究者和科學家發表了論文
• 多種方法被引入,使資訊得以合理化
• 出現了分別控制資料3個維度(資料量、速度和多樣性)的技術,隨後產生了3D資料管理
• 開展了一項估算世界範圍內以4種物理介質(紙張、膠片、光介質和磁介質)建立和儲存的原創資訊的研究

表1-1-2僅僅是對演化過程進行了概要的簡介。正如在表1-1-2中解釋的那樣,當那點陣圖書管理員推測需要更多儲存書架時,大資料的概念就誕生了。隨著時間的推移,大資料進一步成長為了一個文化、技術和學術現象。

大資料的產生,以及與大資料相伴而生的用於處理這些資訊的新型儲存及處理解決方案,能夠幫助企業完成如下的任務:

  • 增強和合理化現有的資料庫;

  • 洞悉存在的機遇;

  • 探索和利用新的機遇;

  • 提供更快的資訊訪問;

  • 儲存大量資訊;

  • 更快地處理資料,提高洞察力。

下一講將進一步幫助你瞭解大資料在各行業中的業務適用性。

大資料是一個已被用了很久的概念。當研究人員使用計算機來分析大量的資料時,他們分析的就是大資料。對快速訪問資料的需求,以及對處理這些資料的應用和程式的需求,推動了目前IT行業中的大資料和大資料分析概念的產生。

總體情況

假設一家銀行計劃在一個主要城區設立自助服務亭。市場部希望根據顧客穿越城市的交通模式,確定最繁忙的地方以建立自助服務亭。在銀行現有的資料倉庫中,不存在這些資訊。在這種情況下,銀行可以通過第三方來獲得顧客的GPS定位資料,從而獲得客戶的流動模式。

這樣,通過合適的大資料集,利用正確的資料提取、準備和整合技術,以及來自銀行營銷部門的資料倉庫所交付的客戶交易資料,如今銀行可以確定城市中最繁忙的地點,以此建立自助服務亭。

知識檢測點2

資料驅動的決策方法不僅限於收集資料,而且要知道所收集的資料在做出關鍵性決策的時候是如何被使用。這裡所採取的方法主要是基於:

a.資料及其分析

b.經驗

c.直覺

d.資料利用

1.3 大資料的結構化

簡單來說,資料的結構化是用於研究和分析資料的技術,旨在瞭解使用者的行為、需求和偏好,為每個人提供個性化的建議。

那麼,為什麼需要結構化?

在日常生活中,你可能會遇到這樣的問題:

  • 如何利用我的優勢,使用我所遇到的海量資料和資訊?

  • 在每天遇到的數以千計的新聞中,我該閱讀哪些?

  • 如何在我喜歡的網站或商店裡,從數以百萬計的書籍中,選擇一本書?

  • 全球範圍內每時每刻都有大量的新事件、突發新聞、體育、發明和發現,如何讓自己始終能瞭解最新資訊?

如今,計算機可以找到解決這類問題的方法。推薦系統可以根據搜尋內容、檢視內容以及所持續時間,專門為你進行大量的資料分析和結構化——從而按照你的行為和習慣進行掃描,為你提供定製化的資訊。

技術材料

推薦程式或推薦系統可以定義為資訊過濾系統,這種系統一般通過協同或基於內容的過濾產生一個推薦列表。

總體情況

當一個使用者經常地在eBay網上線上購買時,每一次他/她登入時,系統可以根據其先前的購買或搜尋,呈現一個使用者可能感興趣的推薦產品列表,從而為每一個使用者提出了特別定製的推薦。這就是大資料分析的力量。

因此,當今的網路世界在應對數百萬種可用資料型別造成的資訊過載方面越來越得心應手。資料結構化過程需要人們理解各種型別的可用大資料。

大資料的型別

來自多個來源(如資料庫、企業資源計劃(ERP)系統、部落格、聊天記錄和GPS地圖)的資料有著不同的格式。然而,為了用於分析,必須將不同格式的資料轉化成一致、清晰的資料。

從不同來源獲得的資料根據來源型別主要分類如下。

  • 內部來源:如組織或企業資料。

  • 外部來源:如社交資料。

表1-1-3比較了資料的內部來源和外部來源。

表1-1-3 資料的內部來源和外部來源對比

因此,根據從上述來源得到的資料,大資料包括了:

  • 結構化資料;

  • 非結構化資料;

  • 半結構化資料。

在現實世界中,非結構化資料在數量上通常要比結構化資料和半結構化資料大。圖1-1-2展示了大資料的資料型別組成。

圖1-1-2 大資料的型別

結構化資料

結構化資料可以定義為一組具有確定重複模式的資料集。這種模式使任何程式都能更容易地排序、讀取和處理資料。結構化資料的處理速度遠遠快於沒有具體重複模式的資料處理速度。

因此,結構化資料:

  • 以預定義的格式組織資料;

  • 是駐留在一個記錄或檔案中的固定欄位上的資料;

  • 相關推薦

    成為資料分析師必須知道這些事兒福利

    ​點選標題下「非同步社群」可快速關注“不是所有有價值的都能被計算,不是所有能計算的都有價值。”——阿爾伯特·愛因斯坦觀察一下週圍的世界,你就會發現,幾秒鐘內會產生、捕獲並通過媒介傳輸龐大的資料。這些資料

    學習算法你必須知道的一些基礎知識福利

    深度學習 機器學習 算法 點擊標題下「異步社區」可快速關註機器學習是解決很多文本任務的基本工具,本文自然會花不少篇幅來介紹機器學習。要想搞明白什麽是機器學習,一定要知道一些概率論和信息論的基本知識,本文就簡單回顧一下這些知識。1.1 概率論概率就是描述一個事件發生的可能性。我們生活中絕大多數事件都

    從Storm到Flink:資料處理的開源系統及程式設計模型福利

    本文節選自CCF大資料教材系列叢書之《大資料處理》,本書由華中科技大學金海教授主編,包括大資料處理基礎技術、大資料處理程式設計與典型應用處理、大資料處理系統與優化三個方面。本教材以大資料處理程式設計為核心,從基礎、程式設計到優化等多個方面對大資料處理技術進行系統介紹,使得讀者能

    iOS11 開發你了解這些新特性嗎?福利

    iOS 11 Xcode 9 編程語言 點擊標題下「異步社區」可快速關註iOS是一個強大的系統,被廣泛地應用於蘋果公司的系列產品iPhone、iPad和iTouch設備中。iOS通過這些移動設備展示了多點觸摸、在線視頻以及眾多內置傳感器的界面。本文將帶領大家認識iOS這款系統,為讀者步入後面知識的

    異步5月新書,咖雲集本本經典福利

    人工智能 算法 微服務 少兒編程 Python 點擊關註異步圖書,置頂公眾號每天與你分享IT好書 技術幹貨 職場知識參與文末話題討論,每日贈送異步圖書。——異步小編5月小長假回來,小編帶來了18本異步新書,這些新書涵蓋熱點領域Python、深度學習、CPU設計、微服務、少兒編程等領域。可以

    普通程式設計師,如何利用三年成為年薪五十萬架構師福利

    不管是開發、測試、運維,每個技術人員心裡都有一個成為技術大牛的夢,畢竟“夢想總是要有的,萬一實現了呢”!正是對技術夢的追求,促使我們不斷地努力和提升自己。 誤區: 有人認為想成為技術大牛最簡單直接、快速有效的方式是“拜團隊技術大牛為師”,讓他們平時給你開小灶,給你分配一些有難度的任務。

    進入資料行業的朋友的建議

    我們在上一篇文章中給大家介紹了大資料中的各個環節的普及內容,大資料的環節有資料的收集、資料的傳輸、資料的轉換、資料的清洗、資料的儲存、資料的二次加工、資料的挖掘、資料的統計、資料的上層應用輸出。今天我們在這篇文章中給大家介紹一下大資料的第一個環節,那就是資料的收集。 在資料的收集階段,資料主要有4種存在

    進入資料行業的朋友的建議

    我們在上一篇文章中給大家介紹了資料的收集需要學到的知識,想進入大資料行業需要學的知識還有很多。今天在這篇文章中我們給大家介紹資料的傳輸以及資料的儲存方面需要學的知識。 在資料的傳輸方面,我們需要知道資料的傳輸到底在什麼時候開始呢?在上一篇文章中我們給大家介紹了資料上報,在大資料模式下,通常上報過來的資料

    進入資料行業的朋友的建議

    我們在前面的文章中給大家介紹了走進大資料行業需要解決的第一個問題,就是大資料的領域範圍。今天我們在這篇文章中給大家介紹第二個問題,就是如何做出選擇,只有做出正確的選擇,我們才能夠做好大資料中的工作。 在我們面對第一個問題的時候,如果我們對於整個流程有足夠熟悉的情況下,這個選擇就會容易很多。這就需要我們清

    進入資料行業的朋友的建議

    我們在前面的文章中給大家介紹了進入了大資料領域建議學習的兩種基礎,它們分別是有良好的演算法理論基礎,以及在大資料處理領域有足夠的資料處理經驗,下面我們針對這兩個基礎給大家解答一下以下這些問題。 演算法基礎一般就是需要相對較高的學歷以及對口的在校研究方向,而在大資料處理領域有足夠的資料處理經驗,對業務場景

    資料和雲端計算技術週報第8期:NoSQL特輯

    寫在第8期特輯 “大資料” 三個字事實上是個marketing語言,從技術角度看,包括範圍非常廣。計算、儲存、網路都涉及。 為了滿足眾多同學學習和工作的須要。後面社群依據情況逐漸推出專門的分類集錦。希望大家喜歡! 究竟什麼是NoSQL?公眾號一系列

    必須知道的 NET第2版

    分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

    日本資料應用環境和發展狀況附PPT下載

    本篇選自野村綜合研究所數字基礎開發部部門經理、高階研究員城田真琴先生近日在“大資料應用中日交流論壇”上所做的題為《日本的大資料應用環境和發展狀況》的演講。 公眾號後臺回覆"181206"即可獲取PPT原文 本篇主要分為四點與大家分享: 日本大資料發

    資料和雲端計算技術週報第9期

    寫在第9期週報堅持是一種品格!社群祝大家新年快樂!“大資料” 三個字其實是個marketing語

    資料:怎樣在虛擬機器VMware Workstation Pro中配置IP地址

    在虛擬機器中配置IP地址的步驟: 1、配置IP地址 在目錄/etc/sysconfig/network-scripts/ifcfg-ens33下 修改: 將 BOOTPROTO=DCHP 改為 BOOTRPOTO=none  //ip地址為靜態分配 將ONBOOT=no

    資料資料治理|資料之數倉平臺設計第十篇

    對於大資料來說,數倉的作用不言而喻,承載著整個公司全業務線的資料,現階段,在hadoop上的數倉主要是用來解決企業內部資料的分析,尤其是各種各樣的統計分析報表。本文主要結合自己公司目前數倉的結構設計和現階段解決的問題而敘述和分享,如有不明,錯誤之處,各位看官可指出,非常感謝! 下圖為數倉整體的技

    資料和雲端計算技術週報第55期

    寫在第55期“大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、

    資料和雲端計算技術週報第0期

    寫在第0期週報 Q1:為什麼要搞一個週報: A1:受眾多社群日報、週報的啟發(如灣區日報,ES日報等等),所以大資料和雲端計算技術社群經過眾多討論,也決定搞一個週報。目的很簡單,營造分享的氣氛,同時參與的同學能從中學到東西。 Q2:為什麼是第0期,不是從1開始嗎? A2:程式設計師寫程式碼不是上來就int

    用Python Scikit-learn 實現機器學習十演算法--樸素貝葉斯演算法有程式碼

      1,前言 很久不發文章,主要是Copy別人的總感覺有些不爽,所以整理些乾貨,希望相互學習吧。不囉嗦,進入主題吧,本文主要時說的為樸素貝葉斯分類演算法。與邏輯迴歸,決策樹一樣,是較為廣泛使用的有監督分類演算法,簡單且易於理解(號稱十大資料探勘演算法中最簡單的演算法)。但