1. 程式人生 > >大資料分析:將大資料轉化為鉅額資金 第四章和第五章

大資料分析:將大資料轉化為鉅額資金 第四章和第五章

 

第4章構建大資料團隊

 

大資料專案最重要的元素之一是一個相當明顯但經常被忽視的專案:人。 沒有人工參與或解釋,大資料分析變得毫無用處,沒有任何目的,沒有價值。 需要一個團隊才能使大資料工作,即使該團隊只由兩個人組成,它仍然是一個必要的元素。

將人們聚集在一起建立一個團隊可能是一個艱鉅的過程,涉及多個會議,也許是招聘,當然還有人事管理。 需要幾種大資料專業技能,這就是團隊的定義。 確定這些技能是團隊合作的第一步。

 

資料科學家

 

熟悉的第一個概念之一是資料科學家;一個相對較新的標題,它不容易被許多組織認可或接受,但它仍然存在。

 

資料科學家通常與員工或商業智慧(BI)顧問相關聯,他擅長分析資料,特別是大量資料,以幫助企業獲得競爭優勢。資料科學家通常是Big Dataanalytics專案中事實上的團隊領導者。

 

標題資料科學家有時被貶低,因為它缺乏特異性,可以被視為資料分析師的一個強化的同義詞然而,這個位置正在獲得大型企業的認可,這些企業有興趣從大資料中獲取意義,結構化,非結構化和半結構化的資料量很大。大型企業生產或有權使用。

 

資料科學家必須具備分析,機器學習,資料探勘和統計技能的組合,以及經驗和演算法和編碼。然而,資料科學家應該具備的最關鍵技能是能夠以其他人容易理解的方式轉換資料的重要性。

 

團隊挑戰

通過分析技能尋找和僱用有才能的員工是建立有效資料分析團隊的第一步。組織該團隊是下一步;必須將IT和BI組之間的​​關係納入團隊設計,從而確定為大資料分析專業人員提供多大的自主權。

 

具有高度組織和集中的公司結構的企業將傾向於將分析團隊置於IT部門或業務智慧能力中心之下。然而,許多專家發現成功的大資料分析專案似乎使用不那麼集中的方法更好地工作,讓團隊成員可以自由地解釋結果並定義檢視資料的新方法。

 

為了最大限度地提高效率,大資料分析團隊可以通過業務功能進行組織,也可以直接放在特定的業務部門中。這方面的一個例子是在市場營銷部門建立一個專注於客戶流失(客戶賬戶週轉)和其他營銷相關分析的分析團隊,而以風險為中心的資料分析專案團隊則更適合財務部門。

 

理想情況下,將大資料分析團隊置於一個部門,使得結果資料具有直接價值,這是加速尋找,確定價值並以可操作的方式交付結果的最佳方式。這樣,分析師和部門決策者就會說同一種語言,並以協作的方式工作,以獲得最好的結果。

 

這一切都取決於規模。小型企業可能具有與大型企業不同的分析需求,這顯然會影響與資料分析專業人員及其工作部門的關係。

 

不同的團隊,不同的目標

一個典型的例子是工程公司正在檢查大量非結構化資料以進行技術分析。 公司本身可能很小,但資料集可能非常大。 例如,如果工程公司正在設計橋樑,那麼大資料分析的組成部分可能涉及從人口普查資料到交通模式的各種因素,這些因素可用於揭示會影響橋樑設計的負荷和交通趨勢。 如果新增其他元素,例如市場資料(材料成本和區域的預期財務增長),資料科學家的定義可能會發生變化。 這個人可能需要工程背景和對經濟學的敏銳理解,可能只與專案的主要工程師合作,而不是與任何其他公司部門合作。

這可能意味著公司的營銷和銷售部門處於冷落狀態。 那麼問題就是這種分析方式對這些部門的重要性 - 可以說,它根本不重要。 在這樣的情況下,市場分析,競爭,政府資金,基礎設施年齡和使用以及人口密度可能不適用於就地資料科學家,但可能需要不同的個人技能來成功地解釋結果。

隨著分析需求和組織規模的增加,角色可能會發生變化,流程和關係也會發生變化。 較大的組織傾向於擁有資源和預算來更好地保護他們的資料。 在這些情況下,重要的是要認識到大資料分析團隊所需的主要技能,並建立團隊核心競爭力。 幸運的是,識別這些核心能力相對容易,因為團隊的任務可以分解為任意能力。

 

不要忘記資料

資料分析團隊需要三個主要功能:(1)定位資料,(2)規範化資料,(3)分析資料。

對於第一個定位資料的功能,個人必須能夠從內部和外部源獲取相關資料,並與IT部門的資料治理團隊合作以保護對資料的訪問。 該個人可能還需要與外部企業,政府部門和研究公司合作,以獲取對大型資料集的訪問許可權,以及理解結構化資料和非結構化資料之間的差異。

對於第二種功能,規範化資料,個人在分析原始資料之前先備份原始資料以刪除任何虛假資料。 此過程需要技術技能和分析技能。 個人可能還需要知道如何組合資料集,在儲存平臺上載入資料集,以及構建對內容進行整形化的欄位矩陣。

分析資料的第三個能力可能是團隊最重要的苦差事。 對於大多陣列織而言,分析過程由資料科學家進行,他們訪問資料,設計演算法,收集結果,然後呈現資訊。

這三個主要的雜務定義了資料分析團隊的功能。但是,每個類別下都有幾個任務子集,這些任務可以根據範圍和特定於所需資料分析過程的其他元素而變化。

與資料本身非常相似,團隊本質上不應該是靜態的,應該能夠發展並適應業務需求。

找到合適的人才來分析資料是構建Ateam的最大障礙。 這些人才需求量很大,對資料分析師和資料科學家的需求繼續以幾乎指數的速度增長。找到這種人才意味著組織必須專注於資料科學並聘請統計建模者和文字資料探勘專業人員以及 專注於情緒分析。 BigData分析的成功需要可靠的資料模型,統計預測模型和測試分析模型,因為這些將是執行大資料所需的核心應用程式。定位適當的人才需要的不僅僅是典型的IT職位; 良好的投資回報所需的技能並不簡單,也不僅僅是技術導向。 一些組織可能會轉向諮詢公司以滿足人才需求; 然而,許多諮詢公司也很難找到可以讓BigData獲利的專家。

然而,大資料風暴雲有一線希望。 BigData與技術有關,與技術有關,這意味著它需要混合型人才。這使得潛在專家群體不僅僅比IT專業人員更加深入。實際上,BigData專家可以從其他非IT中心部門開發,但確實需要對事實進行研究,分析和解釋。

潛在的人才庫可能會增長,包括對大資料技術平臺有著濃厚興趣的工作人員,他們擁有早期職業網站開發工作的工具背景,或者天生好奇,才華橫溢,自學成才的人才。要求在工作中做得更好。這些人通常是能夠理解資料價值和如何解釋資料的意識形態的人。

 

但是,組織不應該僱用任何對資料分析有興趣或對資料分析有基本瞭解的人。重要的是要開發一種類似的試金石,以確定一個人是否具有在可能的新職業中取得成功的適當技能。候選人應具備五項關鍵技能的基礎,以立即為大資料團隊帶來價值:1.資料探勘2。 資料視覺化3。 資料分析4。 資料處理5。 資料發現

這些定義了資料科學家應該能夠完成的任務。

 

團隊與文化

 

 

可以說,通過分析技能尋找和僱傭有才能的員工是建立高階資料分析團隊的第一步。 如果情況確實如此,那麼第二步將是確定如何構建與現有IT和BI組相關的團隊,以及確定為分析專業人員提供多少自主權。

這個過程可能需要建立一種新的技術專業人才文化,他們也具有重要的商業技能。發展這種文化取決於許多因素,例如確保團隊以現有的商業文化方式進行教育,並強調測量和結果。

 

從頂部開始證明是將以IT為中心的文化轉變為內部商業文化的最佳方式之一,這種文化在高階資料分析技術和基於事實的決策制定方面蓬勃發展。經歷過高階管理層變革的業務往往為資料分析業務文化和資料倉庫,BI和高階分析程式的開發掃清了道路。

 

實現文化意識形態的變革是與利用分析相關聯的最重要的關鍵之一。許多公司已經習慣於根據直覺和過去的工作來運營,這兩者都導致了一種公平的商業方式。

 

沒有哪個地方比主要零售連鎖店更明顯,因為它們對各地的一致性感到自豪。這種文化背景可以證明是一種充滿活力,競爭激烈的商業的對立面。建立一種使用分析意識形態的文化無法轉變業務運營。例如,企業可以通過使用資料探勘和預測分析工具自動設定將庫存放入單個零售商的計劃來更好地服務市場。關鍵是將所需的產品放在潛在的客戶面前,例如知道雪鏟不會在佛羅里達州出售,而且防晒霜在阿拉斯加的銷售情況不佳。

 

在組織內培養分析業務文化的另一種可能方法是建立專門的資料分析組。擁有自己的主管的分析小組可以制定分析戰略和專案計劃,促進公司內部分析的使用,培訓分析工具和概念的資料分析,並與部署專案的IT,BI和資料倉庫團隊合作。

 

大獲成功

 

必須衡量成功,衡量團隊對底線的貢獻可能是一個艱難的過程。 這就是為什麼建立目標,衡量標準和里程碑以展示專注於大資料分析的團隊的好處的重要性。 開發績效評估是設計業務計劃的重要部分。 使用BigData,可以將這些指標分配給特定目標。

 

例如,如果組織希望提高智慧財產權的效率,那麼效能指標可能正在測量空箱架空間的數量以及該空架空間的成本對公司的意義。 分析可用於識別產品移動,銷售預測等,以將產品移動到貨架空間,從而更好地滿足客戶的需求。 它簡單地比較了分析過程之前使用的空間百分比和分析團隊解決問題後使用的空間百分比。

 

第5章大資料來源

大多陣列織面臨的最大挑戰之一是找到資料來源作為其分析流程的一部分。 顧名思義,大資料很大,但尺寸並不是唯一的問題。 在決定如何定位和解析大資料集時,還有其他一些考慮因素。

第一步是識別可用資料。 雖然這可能是顯而易見的,但這不過是簡單的。 找到適當的資料以推進分析平臺可能很複雜且令人沮喪。 必須考慮源以確定資料集是否適合使用。 這轉化為偵探工作或調查報告。

考慮因素應包括以下內容:

資料結構(結構化,非結構化,半結構化,基於表格,專有)

資料來源(內部,外部,私人,公共)

資料的價值(通用,唯一,專業)

資料質量(已驗證,靜態,流式傳輸)

儲存資料(遠端訪問,共享,專用平臺,行動式)

資料的關係(超集,子集,相關)

所有這些元素和許多其他元素都會影響選擇過程,並且可能會在分析過程發生之前對原始資料的準備(“清理”)產生巨大影響。

在IT領域,一旦找到資料來源,下一步就是將資料匯入適當的平臺。 該過程可以像將資料複製到Hadoop叢集上一樣簡單,也可以像擦洗,索引和將資料匯入大型SQL型別表一樣複雜。 進行資料傳輸或收集資料只是多步驟,有時是複雜過程中的一個步驟。

一旦執行了匯入(或實時更新),就可以設計模板和指令碼以簡化進一步的資料收集。 一旦設計了該過程,就可以更容易地執行未來。

構建大資料集最終有一個戰略目的:挖掘資料,或挖掘有價值的東西。 挖掘資料涉及的不僅僅是針對特定資料來源執行演算法。 通常,必須首先將資料匯入到可以適當方式處理資料的平臺中。 這意味著必須將資料轉換為可訪問,可查詢和可關聯的內容。 採礦以胺開始,或者用大資料的說法,採用平臺。 最終,要擁有任何價值,該平臺必須填充可用資訊。

狩獵資料

查詢大資料分析資料是部分科學,部分調查工作和部分假設。 一些最明顯的資料來源是電子交易,網站日誌和感測器資訊。 包括在開展業務時收集的任何組織資料。 這個想法是儘可能多的資料來源,並將資料帶入分析平臺。 可以使用網路分流器和資料複製客戶端收集其他資料。 理想情況下,可捕獲的資料越多,處理的資料就越多。

查詢內部資料是大資料的簡單部分。一旦被認為無關,外部或非結構化的資料被納入等式,它就會變得更加複雜。考慮到這一點,現在BigData的一個重要問題是,“我從哪裡獲取資料?”這不容易回答;需要一些研究將小麥與穀殼分開,因為知道穀殼可能有一些價值好。

開始構建大資料倉庫需要集中精力來獲取適當的資料。第一步是確定將使用哪種Big Dataanalytics。例如,企業是否希望分析營銷趨勢,預測網路流量,衡量客戶滿意度,或實現目前技術可以實現的其他一些崇高目標?

正是這些知識將決定收集BigData的位置和方式。構建此類知識的最佳方法可能是更好地理解業務分析(BA)和商業智慧(BI)流程,以確定如何使用大規模資料集與內部資料進行互動以獲取可操作的結果。

 

設定目標

 

每個專案通常都是以目標開始,目標是達到目標。 大資料分析應該沒有什麼不同。 然而,定義目標可能是一個困難的過程,尤其是當目標模糊不清並且比“更好地使用資料”之類的東西更多時。在尋找資料來源之前定義目標是非常重要的,而在很多情況下,已經證明成功的例子 可以成為定義目標的基礎。

 

以零售組織為例。 Big Dataanalytics的目標可能是增加銷售額,這是一項涵蓋多個業務部門和部門的雜務,包括營銷,定價,庫存,廣告和客戶關係。 一旦有了目標,nextstep就是定義目標,即達到目標的確切方法。

對於諸如零售示例之類的專案,有必要從眾多來源收集資訊,一些來自內部,另一些來自外部。 可能必須購買一些資料,並且一些資料可能在公共領域下可用。 關鍵是首先從內部結構化資料開始,例如銷售日誌,庫存移動,註冊交易,客戶資訊,定價和供應商互動。

 

接下來是非結構化資料,例如呼叫中心和支援日誌,客戶反饋(可能是電子郵件和其他通訊),調查以及感測器收集的資料(商店流量,停車場使用情況)。 列表可以包含許多其他內部跟蹤的元素; 但是,關鍵是要注意資料來源的投資收益遞減。換句話說,某些日誌資訊可能不值得收集,因為它不會影響分析結果。

 

最後,必須考慮外部資料。有大量的外部資訊可用於計算從客戶情緒到地緣政治問題的所有資訊。構成分析過程公共部分的資料可以來自政府,研究公司,社交網站以及眾多其他來源。

 

例如,企業可能決定挖掘Twitter,Facebook,美國。人口普查,天氣資訊,交通模式資訊和新聞檔案,以構建豐富資料的複雜來源。一些控制元件需要存在,甚至可能包括在處理之前擦除資料(即,刪除虛假資訊或無效元素)。

 

豐富的資料是預測分析的基礎。一家尋求增加銷售額的公司可以將人口趨勢和社會情緒與客戶反饋和滿意度進行比較,以確定銷售流程可以改進的地方。在初始處理之後,可以使用更多的資料倉庫,並且還可以整合實時資料以識別出現的趨勢。

 

零售情況只是一個例子;還有其他幾十種,其中每一種都可能對手頭的任務有特定的適用性。

 

大資料來源

大資料來源

 

多個來源負責可應用於大資料技術的資料增長。 其中一些來源代表了全新的資料來源,而另一些則是現有資料解析度的變化。 大部分增長可歸因於內容的行業數字化。

 

隨著公司現在轉向建立現有資料的數字表示並獲得新的一切,過去幾年的資料增長率幾乎是無限的,僅僅因為大多數涉及的業務從零開始。

 

許多行業屬於新資料建立和現有資料的數字化,大多數行業都成為大資料資源的合適來源。 這些行業包括以下內容:

運輸,物流,零售,公用事業和電信。

 從車隊GPS收發器,RFID(射頻識別)標籤讀取器,智慧電錶和手機(呼叫資料線)以加速的速度生成感測器資料;這些資料用於優化運營和推動運營商業智慧,以實現即時商機。

衛生保健。

 醫療保健行業正在迅速轉向電子醫療記錄和影象,它希望使用短期公共健康監測和長期流行病學研究計劃。

政府。

 許多政府機構正在對公共記錄進行數字化處理,例如人口普查資訊,能源使用,預算,資訊自由法案檔案,選舉資料和執法報告。

娛樂媒體。

 娛樂業在過去五年中已經轉移了數字錄音,製作和傳送,現在正在收集大量豐富的內容和使用者觀看行為。

生命科學。

 低成本的基因測序(低於1,000美元)可以生成數十TB的資訊,必須對其進行分析,以確定遺傳變異和潛在的治療效果。

視訊監控。

 視訊監控仍在從關閉字幕電視過渡到網際網路協議電視攝像機以及組織希望分析行為模式(安全和服務增強)的記錄系統。

對於許多企業而言,附加資料可以來自自助服務市場,其記錄親和卡的使用並跟蹤所訪問的站點,並且可以與社交網路和基於位置的元資料組合。這為零售商,分銷商和消費包裝商品製造商創造了可操作的消費者資料的金礦。

法律專業正在增加大量資料來源,感謝發現過程,該過程更頻繁地處理電子記錄,並要求紙質文件數字化,以便更快地索引和改進訪問。如今,領先的電子發現公司正在處理太位元組甚至數PB的資訊,這些資訊需要在法律訴訟的整個過程中得到保留和重新分析。

其他資訊和大型資料集可以在Facebook,Foursquare和Twitter等社交媒體上找到。許多新企業正在構建大資料環境,基於使用節能多核處理器的擴充套件叢集,這些處理器利用消費者(有意識或無意識)幾乎連續的資料流(例如,喜歡,位置和意見)。

由於成功站點的網路效應,生成的總資料可以以指數速率擴充套件。自收集資訊以來,一些公司已經收集並分析了超過40億個資料點(例如,網站剪下和貼上操作),並且在一年之內,該過程已擴充套件到收集的200億個資料點。

深入瞭解BIGDATA來源

解析度的變化進一步推動了大資料的擴張。 從傳統系統收集傳統資料點,或安裝可傳遞更多資訊的新感測器。 在以下方面可以找到一些解析度提高的示例:

金融交易。

 由於全球貿易環境的整合和程式化交易的使用增加,收集和分析的交易量增加了兩倍。交易量也波動得更快,更多,更不可預測。企業之間的競爭正在創造更多資料,僅僅因為交易決策的抽樣更頻繁且間隔更快。

智慧儀表。

 在能源網格系統中使用智慧電錶,將電錶讀數從每月轉換為每15分鐘,可以轉化為資料的數千倍增長。智慧電錶技術不僅可以用於電力使用,還可以測量加熱,冷卻和其他負載,可以在任何給定時刻用作家庭規模的指標。

行動電話。

 隨著智慧手機和連線的PDA的發展,從這些裝置生成的主要資料已經超越了呼叫者,接收者和呼叫長度。其他資料現在以指數速率收穫,包括地理位置,文字訊息,瀏覽歷史和(感謝加上加速度計)甚至動作,以及社交網路帖子和應用程式使用等元素。

 

公共資訊的財富

對於那些希望對可用於大資料分析的內容進行抽樣的人來說,Web上存在大量資料;其中一些是免費的,其中一些是免費的。其中很大一部分就是為了拍攝。如果您的目標是開始收集資料,那麼很難擊敗市場上現有的許多工具。對於那些尋求簡單點選的人來說,Extractiv(http://www.extractiv.com)和Mozenda(http://www.mozenda.com)提供了從多源獲取資料並搜尋Web的能力。資訊。另一個在網路上處理資料的候選人是Google Refine(http://code.google.com/p/google-refine

),一個工具集,可以處理資料,清理它們,然後將它們轉換為不同的格式進行分析。 80Legs(http://www.80legs.com)專門收集來自社交網站以及零售和商業領域的資料。

 

剛剛提到的工具是從Web挖掘資料以將其轉換為大資料分析平臺的極好示例。但是,收集資料只是許多步驟中的第一步。為了從資料中獲取價值,必須對它們進行分析,並且更好地進行視覺化。諸如Grep(http://www.linfo.org/grep.html),Turk(http://www.mturk.com)和BigSheets(http://www-01.ibm.com/software/ebusiness)等工具/ jstart / bigsheets)提供分析資料的能力。對於視覺化,分析師可以使用TableauPublic(http://www.tableausoftware.com),OpenHeatMap(http://www.openheatmap.com)和Gephi(http://www.gephi.org)等工具。

除了使用發現工具之外,還可以通過服務和網站找到大資料,例如CrunchBase,美國人口普查,InfoChimps,Kaggle,Freebase和Timetric。 許多其他服務直接提供資料集以整合到大資料處理中。

其中一些服務的價格相當合理。 例如,您可以通過80Legs下載一百萬個網頁,價格不到三美元。 一些頂級資料集可以在商業網站上找到,但是免費。 一個例子是Common Crawl Corpus,它包含來自大約50億個網頁的資料,並且可以從Amazon S3以ARCfile格式獲得。 Google Books Ngrams是Amazon S3免費提供的另一個數據集。 該檔案採用Hadoop友好格式。 對於那些可能想知道的人來說,n-gram是固定大小的專案。 在這種情況下,專案是從GoogleBooks語料庫中提取的單詞。 n指定集合中的元素數量,因此afive-gram包含五個單詞或字元。

Amazon S3提供了更多資料集,它絕對可以訪問http://aws.amazon.com/publicdatasets/

  跟蹤thesedown。 另一個訪問公共資料集列表的網站是:http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-

public,是資料集連結和與資料集相關的資訊的寶庫。

 

開始使用大資料獲取

大資料採用的障礙通常是文化而非技術。特別是,許多組織未能實施BigData計劃,因為他們無法理解資料分析如何改善其核心業務。 BigData開發最常見的觸發因素之一是資料爆炸,使現有資料集變得非常龐大,並且越來越難以使用傳統的資料庫管理工具進行管理。

 

隨著這些資料集的規模不斷擴大 - 通常從幾兆位元組到幾千兆位元組不等 - 企業面臨著在可接受的時間範圍內捕獲,管理和分析資料的挑戰。開始之前包括幾個步驟,從培訓開始。培訓是理解大資料提供的正規化轉變的先決條件。沒有內幕知識,就很難解釋和傳達資料的價值,特別是當資料是公共的時候。列表中的下一步是開發和操作團隊(稱為DevOps)的整合,人們最有可能處理儲存和將資料轉換為可用內容的負擔。

確定業務負責人可以理解和關聯的問題並引起他們的注意。

 

不要只關注技術資料管理挑戰。請務必分配資源以瞭解業務中資料的用途。

 

定義必須回答的問題以滿足業務目標,然後專注於發現必要的資料。

 

瞭解可用於合併資料和業務流程的工具,以便資料分析的結果更具可操作性。

 

構建可擴充套件的基礎架構,可以處理資料的增長。良好的分析需要足夠的計算能力來提取和分析資料。許多人氣餒,因為當他們開始分析過程時,它是緩慢而費力的。

 

確定您可以信任的技術。有各種各樣的開源大資料軟體技術可供使用,許多可能會在幾年內消失。找一個有專業支援的人,或者準備好從長遠來看對技術和解決方案進行永久性維護。 Hadoop似乎吸引了很多主流廠商的支援。

 

選擇適合問題的技術。 Hadoop最適合大型但相對簡單的資料集過濾,轉換,排序和分析。它也適用於篩選大量文字。它對於持續的持久資料管理並不真正有用,特別是在需要結構一致性和事務完整性時。

 

注意不斷變化的資料格式和不斷變化的資料需求。例如,尋求使用BI解決方案來管理營銷活動的組織面臨的一個共同問題是,這些活動可以非常專注,需要分析可能僅在一兩個月內發揮作用的資料結構。使用傳統的關係資料庫管理系統技術,資料庫管理員可能需要幾周的時間才能讓資料倉庫準備好接受已更改的資料,此時該資料庫已接近完成。 MapReduce解決方案(例如構建在Hadoop框架上的解決方案)可以將這些周減少到一兩天。因此,不僅僅是數量,而且還可以推動大資料的採用。

 

持續增長,沒有看到

資料建立以創紀錄的速度發生。 事實上,研究公司IDC的數字宇宙研究預測,在2009年到2020年之間,數字資料將增長44倍,達到每年35個zettabytes。 同樣重要的是要認識到,大部分資料爆炸是由於位於網路外圍的裝置發生爆炸,包括嵌入式感測器,智慧手機和平板電腦。 所有這些都為人類基因組學,醫療保健,石油和天然氣,搜尋,監控,金融和許多其他領域的資料分析提供了新的機會。