1. 程式人生 > >大資料分析平臺的搭建部署案例分享

大資料分析平臺的搭建部署案例分享

以下為原文:

  夜深了,電話鈴聲響起!這不是恐怖片的開頭,卻是我們工作的開始。

  2013年5月,我們收到一個電話線索,客戶需要支援幾十億資料量的實時查詢與分析,包括資料抓取和儲存,我們經過一番努力提出一個解決方案,客戶覺得有些不妥,決定自己招聘Hadoop團隊,實施該系統……

  半個月後,客戶打來第二個電話,明確表示Hadoop未能滿足實時大資料分析的需求,決定接受我們的方案,但是客戶要求我們不僅出產品,還要負責實施……

  於是乎,開工!

  專案價值

  CMNET網間流量分析與監控系統(簡稱流控系統),是中國移動分公司的一個專案。專案要求能基於時間、地區、運營商、業務、App、IP分組、域名等維度對全省的上網流量進行實時分析和報告。這些分析報告能給客戶帶來如下好處:

  1. 實現對接入鏈路和基站的全程監控。例如,一旦來自某鏈路或基站的流量很低,可及時對鏈路和基站進行檢修,這將大大降低故障率。

  2. 由於具備了對鏈路和基站進行全程監控的能力,客戶可以對鏈路和基站的頻寬進行動態調整,基於需求進行合理的資源配置。

  3. 覆蓋全省的全量資料,能提供基於業務/地域/App/行業/域名等維度的資料分析報告,具備100%的可信度和極高的商業價值。

  資料流向

  上網資料從硬體裝置中抓取出來,形成壓縮的日誌檔案儲存在伺服器上,伺服器每五分鐘生成新的日誌檔案。該伺服器提供FTP訪問。

  我們方案中承擔的流控系統,將通過FTP每五分鐘訪問一次日誌檔案伺服器,將新生成的壓縮日誌檔案抽取出來。這是一個典型的、增量更新的ETL過程,如下:

  1. Extract: 定期抽取的日誌檔案並解壓縮。

  2. Transform: 解析出上網資訊,同MySQL的維度表進行關聯,生成包括業務/地域/App/行業/域名等維度的寬表。

  3. Load: 將資料裝載入我們的分散式集市。

  初期驗證(POC)

  中國移動的日誌資料分G類和A類,各取幾塊樣本日誌檔案,驗證資料流向的可行性以及效能。

  我們很快完成了ETL的整個過程,寬表資料被成功地裝載入我們的分散式集市。

  效能上,我們按照使用者提出的每天資料量5000萬條增量,計算出支援100天50億資料量的分散式叢集所需的磁碟空間、記憶體總量、和CPU總量。由於客戶一再強調預算有限,於是配置了6臺低配PC server:1cpu x 4core,32G記憶體,1T硬碟。

  我們模擬了常用的使用者場景,整個系統的響應能力基本滿足需求。系統架構如下:

  正式實施

  中國移動分公司的上網資料在內網,一般不提供外網連線,需要嚴格申請之後才能在一定時間內提供外網連線。因而,我們先把整個系統的ETL工作開發完成之後,才正式申請了外網連線進行資料裝載。

  從開始進行上網資料的ETL工作,我們就發現數據量與預期嚴重不符。預期的上網資料是每天不超過5000萬條,但實際上每天的上網資料在6億條以上,100天儲存的資料量將會達到驚人的六百億條。6臺低配PC server有點小馬拉大車的感覺,完全達不到“海量資料、實時分析”的設計目標。我們趕緊聯絡客戶,確定上網資料每天6億條以上,而不是之前預估的每天5000萬條左右。怎麼辦?

  系統重構

  經過與客戶的詳細溝通和理性分析,大家一致決定進行系統重構。

  上網資料的日誌檔案是5分鐘粒度的。我們將上網資料按照分析需求分為兩類:

  1. 細節資料:保留三天的細節資料(5分鐘粒度),共約20億條。這樣,由於保留了細節資料,客戶可以對近三天的上網資料進行任意的探索式BI分析。

  2. 彙總資料:在認真研究了流控系統的分析報告需求之後,我們將五分鐘的細節資料彙總為兩小時的彙總資料。這樣資料量可以降到約為原來的1/10,100天的資料總量大約60億條。

  重構之後的資料流如下:

  後期,我們陸續進行了一些系統調優,包括JVM調優、儲存調優、計算調優等等。客戶開啟一個Dashboard的響應時間基本控制在秒級,最極端的分析報告也能在一分鐘之內生成。基本實現了“海量資料、實時分析”:

  1. 系統定期推送日報、週報和月報。

  2. 系統支援探索式BI分析。多數分析請求達到了秒級響應。

  案例總結

  1. 專案的資料量非常大,100天超過600億條日誌;

  2. 專案的預算非常有限,採購了6臺低端PC Server。硬體投入不大,軟體價效比也很高;

  3. ETL過程難度較高,隨著降維的需求加入,BI層難度也相應提高;

  4. 為達到秒級響應,以支援探索式BI的互動式分析,對系統進行了多個層面的優化。

  結束語

  有了大資料,還要從大資料中提取價值,離不開分析工具,通過豐富的分析功能,在繁雜的資料中找到其中的價值。而大資料給分析提供了一定的挑戰,需要高效能運算做支撐,才能在大資料的金礦中挖到金子。

  這些案例的成功實施和上線,完美詮釋了我們的大資料之道:大資料,小投入。

相關推薦

資料分析平臺搭建教程:基於Apache Zeppelin Notebook和R的互動式資料科學

介紹 這篇文章的目的是幫助您開始使用 Apache Zeppelin Notebook,它可以滿足您用R做資料科學的需求。Zeppelin 是一個提供互動資料分析且基於Web的筆記本。方便你做出可資料驅動的、可互動且可協作的精美文件,並且支援多種語言,包括 Scala(

資料分析平臺搭建部署案例分享

以下為原文:   夜深了,電話鈴聲響起!這不是恐怖片的開頭,卻是我們工作的開始。   2013年5月,我們收到一個電話線索,客戶需要支援幾十億資料量的實時查詢與分析,包括資料抓取和儲存,我們經過一番努力提出一個解決方案,客戶覺得有些不妥,決定自己招聘Hadoop團隊,實施該

先來談談企業搭建資料分析平臺的背景。

1、搭建大資料平臺離不開BI。在大資料之前,BI就已經存在很久了,簡單把大資料等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。BI是達成業務管理的應用工具,沒有BI,大資料就沒有了價值轉化的工具,就無法把資料的價值呈現給使用者,也就無法有效地支撐企業經營管理決策;大資料則是基礎,沒有大資料,BI

初學者如何快速開發資料分析平臺

大資料在近幾年受到越來越多的關注,如何將大資料快速落地於生產實踐,產生相應的經濟價值一直是一個值得關注的問題。當談到大資料,人們首先想到的是,是不是的linux,是不是的學習java,這給大資料技術的應用帶來一定的困難。如果,有一款通用的大資料平臺,只需要針對具體的業務系統修改資料庫和演

電商資料分析平臺專案(一)專案框架

開發可以在web專案中內嵌的js sdk。每當使用者瀏覽到網站頁面或者觸發某種事件時,會呼叫js程式碼,根據使用者cookie傳送一個session資訊這時到我們的nginx伺服器中。 nginx伺服器在接收到傳送的session後會將其寫入日誌檔案中記錄下來,這時監聽日誌檔案的flume會將session

電商資料分析平臺(三)nginx配置及flume讀取日誌資訊

一、nginx配置 在本專案中nginx的作用只是接收客戶端傳送的事件,並將相應的session寫入日誌檔案中,所以配置較為簡單,只需要配置寫入的日誌檔案和寫入的格式 1.地址配置 server { listen

Superset 資料分析平臺搭建及使用 2

Superset 資料分析平臺使用一、實驗介紹1.1 實驗內容Superset 是 Airbnb 開源的資料分析與視覺化平臺,同時也是由 Python 語言構建的輕量級 BI 系統。Superset 可實現對 TB 量級資料進行處理,相容常見的數十種關係或非關係型資料庫,並在內部實現 SQL 編輯查詢等操作。

巧用Superset資料分析平臺搞定各類圖表

前言 其實大資料圖表展示的這類平臺有很多,Superset是其中之一,最近有個需求對各類圖表展示的開發較多,索性將工作量交給這個平臺。 介紹 Superset的中文翻譯是快船,而Superset其實是一個自助式資料分析工具,它的主要目標是簡化我們的資料

技本功丨甲方大人來了之運維資料分析平臺搭建實戰

袋鼠雲日誌團隊時常遇到各種各樣的甲方大人,畢竟我們是一個非常優秀的企業服務公司(自信滿滿),當然面對甲方大人的時候要做到處變不驚,臨危不亂,鎮定自若的接受需求…… 甲方大人的常用臺詞一定要記住:我們很忙,有好幾套監控系統,能不能再不砍掉監控系統的情況下,幫助我們搞定日運維需求呢?這樣的需求每

資料分析平臺工程師和演算法工程師崗位職責:

參與大資料平臺的搭建和優化,包括Hadoop,spark,Kafka,ELK等軟體的配置和系統優化。計算學習基礎演算法,使用Java語言和python語言實現資料處理,熟悉spark和MapReduce。瞭解AMOS,DEA,Frontier,統計分析的基本步驟

企業產業升級解決方案之BI資料分析系統搭建

面對這個大資料時代,傳統企業轉型數字化已經迫在眉睫。眾所周知我們現在所處的時代是一個數字和創新的時代。在企業執行的過程中,分分鐘會產生龐大的資料,如何利用好這些資料實現數字和創新也是管理者們必須掌握的技能。因此BI大資料分析系統便出現在更多人的視野。 BI大資料分析系統它是早在1958年就已經有了商業雛形,

Ebay開源 Pulsar:實時資料分析平臺

作者:汪興朗 汪明明王巧玲   eBay作為全球性的商務平臺和支付行業領先者,擁有海量的使用者行為資料。基於現有的hadoop大資料處理,已經不能夠滿足業務上對實時性的需求。基於eBay過去的大資料處理的經驗和對最新技術的運用,eBay探索出一個對海量的資料流進行實時的收集

[BigData]16家資料分析平臺

革命 – 這個詞彙十分準確地描述了我們所處的這個資料分析的時代。企業一方面緊緊握住大量不同型別的資料,另一方面則無比急迫地渴求分析。供應商的迴應是提供高分散式結構和新技術水平的儲存處理能力。創業者還開拓了開源許可模式,這種模式並不新鮮,但正在越來越多地被接受,甚至被資料管理專家青睞。 Apache

方案分享| 醫療資料分析應用平臺方案

醫療衛生大資料的處理和分析演算法分類和形成 l 技術分類方法 ü 根據挖掘任務:分為分類或預測模型發現、資料總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等; ü 根據挖掘物件:可分為關係資料庫、面向物件資料庫、空間資料庫

資料時代|搭建Python資料分析平臺

  一、基本架構 其實沒什麼高深的東西,無非是常用的那一套: pandas, numpy, matplotlib… 但是為了更方便使用,加持了 jupyter notebook(即以前的ipython notebook)…… 又為了更方便使用,前端加了nginx或

開源日誌分析系統ELK平臺搭建部署

logstash 日誌分析系統 elk 開源日誌分析系統ELK平臺搭建部署 一、前言日誌主要包括系統日誌、應用程序日誌和安全日誌。系統運維和開發人員可以通過日誌了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日誌可以了解服務器的負荷,性能安全性,從而及時采取措施糾正錯誤。通常

利用虛擬機器快速搭建資料學習平臺

一.環境準備 win7、vmware、centos映象、crt遠端登入軟體 1.1下載安裝Vmware 連結:https://pan.baidu.com/s/1_bwt383Y57n-OCrVJ59L8A 提取碼:7dpo 下載完成後出現如下檔案: 點選 VMware-workstatio

資料入門環境搭建整理、資料入門系列教程合集、資料生態圈技術整理彙總、資料常見錯誤合集、資料的離線和實時資料處理流程分析

本篇文章主要整理了筆者學習大資料時整理的一些文章,文章是從環境搭建到整個大資料生態圈的常用技術整理,環境希望可以幫助到剛學習大資料到童鞋,大家在學習過程中有問題可以隨時評論回覆! 大資料生態圈涉及技術: Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala

經典資料視覺化案例-賓士中國DSS決策支援資料分析系統

每一家汽車行業的銷售模式基本上都是大同小異的,有總部,全國有4S店,而對於汽車行業的資料管理和資料分析,也是當前所有汽車行業急需要解決的問題,隨著汽車技術的日趨成熟和競爭的加劇,找到新的突破口或是解決經營中所出現的問題,對汽車行業來顯得尤為重要。當大資料來臨時,

分享《Python金融實戰》中英文PDF原始碼+《Python金融資料分析》中英文PDF原始碼

《Python金融實戰》介紹了Python在金融領域的應用,從Python的安裝、基礎語法,再到一系列簡單的程式設計示例,循序漸進地引導讀者學習Python。同時,還結合Python的各個模組以及金融領域中的期權價格、金融圖形繪製、時間序列、期權定價模型、期權定價等內容,深度揭示了Python在金融行業中的應