1. 程式人生 > >大資料基礎概論

大資料基礎概論

一、大資料概念

  1.大資料的定義:

    指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。補充:主要解決,海量資料的儲存和海量資料的分析計算問題。

  2.資料的單位:

    bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

    1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T。。。

二、大資料特點

  1.Volume(大量):

    截至目前,人類生產的所有印刷材料的資料量是200PB,而歷史上全人類總共說過的話的資料量大約是5EB。當前,典型個人計算機硬碟的容量為TB量級,而一些大企業的資料量已經接近EB量級。

  2.Velocity(高速):

    這是大資料區分於傳統資料探勘的最顯著特徵。根據IDC(網際網路資料中心)的“數字宇宙”的報告,預計到2020年,全球資料使用量將達到35.2ZB。在如此海量的資料面前,處理資料的效率就是企業的生命。例如:天貓雙十一交易額、保險行業開門紅。

  3.Variety(多樣):

    這種型別的多樣性也讓資料被分為結構化資料和非結構化資料。相對於以往便於儲存的以資料庫/文字為主的結構化資料,非結構化資料越來越多,包括網路日誌、音訊、視訊、圖片、地理位置資訊等,這些多型別的資料對資料的處理能力提出了更高要求。

  4.Value(低價值密度):

    價值密度的高低與資料總量的大小成反比。比如,在一週的交通監控視訊中,我們只關心出事故的那一時間,如何快速對有價值資料“提純”成為目前大資料背景下待解決的難題。

三、大資料能幹什麼

  1.O2O:

    百度大資料+平臺通過先進的線上線下打通技術和客流分析能力,助力商家精細化運營,提升銷量。

  2.零售:

    探索使用者價值,提供個性化服務解決方案;貫穿網路與實體零售,攜手創造極致體驗。經典案例,紙尿布+啤酒。

  3.旅遊:

    深度結合大資料能力與旅遊行業需求,共建旅遊產業智慧管理、智慧服務和智慧營銷的未來。

  4.商品廣告推薦:

    商品廣告推薦:給使用者推薦訪問過的商品廣告型別。例如:天貓、京東等。

  5.保險:

    海量資料探勘及風險預測,助力保險行業精準營銷,提升精細化定價能力。

  6.金融:

    多維度體現使用者特徵,幫助金融機構推薦優質客戶,防範欺詐風險。

  7.房產:

    大資料全面助力房地產行業,打造精準投策與營銷,選出更合適的地,建造更合適的樓,賣給更合適的人。

  8.移動網際網路:

    根據使用者年齡、職業、消費情況,分析統計哪種套餐適合哪類人群。對市場人群精準定製。

  9.人工智慧:

    人工智慧依靠海量資料作為支撐,機器學習等都需要海量資料進行訓練。

四、大資料的發展前景

  1.跟著國家走:

    黨的十八屆五中全會提出“實施國家大資料戰略”,國務院印發《促進大資料發展行動綱要》,大資料技術和應用處於創新突破期,國內市場需求處於爆發期,我國大資料產業面臨重要的發展機遇。

  2.跟著大學走:

    2017年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設大資料課程。

  3.跟著錢走:

    薪資高、缺口大。

五、大資料技術的生態體系

  待補充