大資料分析技術與應用
CDA資料分析研究院原創作品
一、大資料概念
大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
二、大資料的特點
1)Volume(大量):
截至目前,人類生產的所有印刷材料的資料量是200PB,而歷史上全人類總共說過的話的資料量大約是5EB。當前,典型個人計算機硬碟的容量為TB量級,而一些大企業的資料量已經接近EB量級。
2)Velocity(高速):
這是大資料區分於傳統資料探勘的最顯著特徵。根據IDC的“數字宇宙”的報告,預計到2020年,全球資料使用量將達到35.2ZB。在如此海量的資料面前,處理資料的效率就是企業的生命。
天貓雙十一:2016年6分58秒,天貓交易額超過100億
3)Variety(多樣):
這種型別的多樣性也讓資料被分為結構化資料和非結構化資料。相對於以往便於儲存的以資料庫/文字為主的結構化資料,非結構化資料越來越多,包括網路日誌、音訊、視訊、圖片、地理位置資訊等,這些多型別的資料對資料的處理能力提出了更高要求。
訂單資料:
4)Value(低價值密度):
價值密度的高低與資料總量的大小成反比。比如,在一天監控視訊中,我們只關心小偷偷盜的片刻,如何快速對有價值資料“提純”成為目前大資料背景下待解決的難題。
三 大資料應用
1)O2O:百度大資料+平臺通過先進的線上線下打通技術和客流分析能力,助力商家精細化運營,提升銷量。
2)零售:探索使用者價值,提供個性化服務解決方案;貫穿網路與實體零售,攜手創造極致體驗。經典案例,子尿布+啤酒。
3)旅遊:深度結合百度獨有大資料能力與旅遊行業需求,共建旅遊產業智慧管理、智慧服務和智慧營銷的未來。
4)商品廣告推薦:給使用者推薦訪問過的商品廣告型別
5) 房產:大資料全面助力房地產行業,打造精準投策與營銷,選出更合適的地,建造更合適的樓,賣給更合適的人。
6)保險:海量資料探勘及風險預測,助力保險行業精準營銷,提升精細化定價能力。
7)金融:多維度體現使用者特徵,幫助金融機構推薦優質客戶,防範欺詐風險。
8)移動聯通&移動聯通
9)人工智慧
四 常用大資料分析技術
常見的大資料分析技術主要由以下幾部分構成:
分散式的檔案系統儲存海量的非結構化資料(例如:hdfs等)
分散式的離線計算系統,對業務資料批量處理。(例如:mapreduce等)
分散式的實時計算系統,實時對業務資料進行處理(例如:sparkStreaming、storm、flink等)
分散式的結構化資料分析工具(例如:hive等)
分散式的資料庫(例如:hbase等)
完整的大資料平臺往往還要跟業務系統整合起來為使用者提供服務。