1. 程式人生 > >大資料時代:如何正確認識大資料?

大資料時代:如何正確認識大資料?

言必稱大資料的時代,讓我們多少有些“審美疲勞”。但如果嚴格按照大資料的定義來判斷,相信大多數公司是根本不存在大資料問題的。你也許有很多資料,但那並不意味著就是大資料。資料庫即服務公司MongoHQ的@Codepope最近在部落格上探討了這個問題,以及為何我們要儲存這麼多的資料,但無法從中獲取相應的價值。

大資料實際上是範圍極廣、數量極大的,超乎你的想象。你也許認為維基百科的資料很大,但它也只是冰山一角而已。人們往往認為“很多的”資料就是所謂的“大”,因此他們無時無刻不在於大資料打交道。這種想法是不對的,我們從很早以前就已經有海量的資料了,那時候甚至還沒有大資料的概念。那麼大資料究竟是從哪裡來的呢?為什麼我們需要大資料呢?


時間倒退到上世紀90年代,人們開始認識到以數位的方式儲存各種資料是非常便宜的,要比把它們儲存在紙上便宜的多。而當某種事物變得足夠便宜的時候,它就成為了一種標準。將所有資訊都儲存起來似乎成為了人類的一種本能,以便我們能夠在未來需要的時候找到它。特別是在成本低廉的情況下,何樂而不為?

尤其是在科學領域,科學家們從很早以前就夢想能夠把實驗中的所有資料都妥善地儲存起來。幾十年前,美國的Peter Denning就闡述了NASA在儲存哈勃空間望遠鏡的資料時所面對的難題:它每天生成的資料就需要2500張光碟來儲存,這不僅對對網路和儲存裝置造成了極大壓力,甚至已經超出了人類能夠理解的範圍。隨著儲存技術以及經濟的飛速發展,現在想一想,要儲存2500張光碟大小的資料,只需要幾百元的普通硬碟就可以實現。

大資料與“熱”資料

還有一種常見的錯誤觀點,即你不僅擁有很多資料,而且使用者訪問這些資料的頻率很高,因此就需要我們用“大資料思維”來處理這些資料。

這些資料其實不一定是大資料,而是所謂的“熱資料”,它們並不適用於處理大資料的方式。熱資料是純粹的擴充套件性問題,你需要把系統的效能調整到最佳,降低系統的延遲同時確保它能夠被所有提出訪問需求的使用者訪問到。

大資料與它正相反,我們可以說它是“冷資料”。也就是說,大資料並不是你頻繁訪問的資料,除了作為分析之用,甚至你從來不會去用到它。事實上,除了分析之外,我們可以把大資料“冷凍”起來。儘管有時候我們會把大資料與新鮮快速的記錄一起進行分析,但大資料池至少需要從概念上與活動的熱資料隔離開來。否則二者會互相造成不良的影響。將冷熱資料分開儲存是公認的最佳實踐,無論是儲存還是應用,它們都是完全不同的資料。

很不幸的是,有很多人並沒有認清這一點,他們還在將大資料處理方式應用到各種各樣的資料型別當中。最終的結果也就可想而知。

大資料價值有限

現如今,我們已經能夠儲存下每個業務流程當中的資料,甚至已經可以儲存下使用者訪問頁面的資料或者觀眾觀看哪些節目的資料。物聯網的出現改變了遊戲規則,為我們開啟了一扇門。然而每一條資料、每一條記錄的價值卻在下降。

可以這樣說,一條信用卡的交易記錄是相對豐富的資料,它包含了人、地點、時間以及更多附加在資料上的價值,因此很自然我們想要收集這些資料,用來促進銷售的迴圈。然而相比而言,一條使用者在網上的瀏覽點選行為資料就沒有那麼“值錢”了。這些資料也許包含了使用者的行為習慣資訊,但單獨拿出一條記錄也許是沒有任何價值的。你只有在想要分析使用者的行為時,才會大量收集這樣的資料。

而現在的情況是,儲存這些資料的成本是比較低的,而且你收集越多的資料,通過比對不同的趨勢,你就可能獲得更多的價值。拿觀眾觀看電視的資料來說,大量收集這些記錄,然後與節目表和廣告資料整合在一起進行分析,就能更好地理解觀眾喜歡什麼樣的節目,愛看什麼樣的電視劇,客戶也可以更精準地投放廣告。這時候大資料的價值就會凸顯出來,就像最近火的一塌糊塗的《紙牌屋》。

因此我們可以判斷,當應對大量的記錄時,如果每一條單獨記錄越小(資料量,關聯性),那麼它是大資料的可能性就越大。而“大資料分析”所面臨的挑戰是,從這些資訊的小小元素中提煉出意義,我們可能要把它們與上述的豐富的資料放到一起來提供上下文,識別其中隱藏著的模式。這算不上是大海撈針,更準確的說法應該是從一堆針頭中找到你所需要的那一個。

其他資料的價值不要輕視

現在,你需要從大資料的狂熱中退一步思考,你現在最重要的資料也許並不是那些大資料,而是我們所說的熱資料。你也許已經建立了大資料系統,時刻準備從大資料金礦上挖掘潛在的價值,但一定不要忽視其他資料的價值。你還有業務資料,它需要你快速、高效、一致地交付這些資料,同時要解決擴充套件性的問題。記住,大資料的最佳實踐並不適合這些資料。你的資料也許這是一些重要的有價值的資料,它們並不是大資料。

Bingdata優網助幫匯聚多平臺採集的海量資料,通過大資料技術的分析及預測能力為企業提供智慧化的資料分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫資訊科技有限公司(簡稱優網助幫)是以大資料為基礎,並智慧應用於整合營銷的大資料公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有網際網路與通訊運營商兩種基因,為大資料的演算法分析提供強大的技術支撐。

相關推薦

資料時代如何正確認識資料

言必稱大資料的時代,讓我們多少有些“審美疲勞”。但如果嚴格按照大資料的定義來判斷,相信大多數公司是根本不存在大資料問題的。你也許有很多資料,但那並不意味著就是大資料。資料庫即服務公司MongoHQ的@Codepope最近在部落格上探討了這個問題,以及為何我們要儲存這麼多的資料

資料時代最熱門的資料技術

隨著大資料技術滲透到各行各業,很多人也轉行到大資料,有很多的哪些大資料技術掌握後在工作運用中會輕鬆一些,下面列十大最熱門的大資料技術,大家可以學習瞭解。 預測分析 : 預測分析 是一種統計或資料探勘解決方案,包含可在結構化和非結構化資料中使用以確定未來結果的演算

資料時代生活、工作與思維的變革》下載

2018年11月02日 14:09:24 無人寵 @ 閱讀數:1 標籤: 程式設計 資料 區塊

資料時代9種從資料中獲取商業價值的方法

很多大資料都是來自一些新的來源,這代表客戶或合作伙伴互動的新渠道。和任何新的資料來源一樣,大資料值得探索。通過資料探索,你可以瞭解一些之前所不知道的商業模式和事實真相。關於管理大資料的調查顯示,89%的受訪者認為大資料是一個機會,而在2011年的大資料分析的調查中這個比例僅為

資料時代資料在O2O領域的應用

在O2O領域,各個移動網際網路應用無時無刻不在生產資料,而資料分別儲存在各家公司或應用的資料庫伺服器中,在大資料背景下,單打獨鬥已無法勝任深度的大資料分析與挖掘,傳統企業需要的是基於大資料的智慧優化與輔助決策。百度昨天被推出了以開放雲、資料工廠、百度大腦三者為核心的大資料引擎

資料時代搭建自己的資料平臺可以很容易!

一、基礎應用篇:構建歷史資料查詢系統 最初開始嘗試大資料技術的客戶,除網際網路行業外就是電信行業的客戶了。不管從是IT技術儲備還是從需求的迫切程度來看,電信行業的客戶都具有應用大資料技術的強烈驅動力:一方面電信業內部系統每時每刻都在產生大量的資料,如詳單資料、計費資料、活動

資料時代資料更需謹慎分析

進入大資料時代後,資料統計、分析被視作兼具“前景”和“錢景”的行業。一時間,擅長髮布各種資料的機構和單位如雨後春筍般層出不窮。可是,大資料真的那麼可信嗎?之所以有這麼一問,是因為近期連續遇到幾起資料“烏龍”事件。例如,某網路平臺釋出報告稱,平安、民生、廣發、天津等4家銀行在上

資料時代Kafka 如何做到 1 秒釋出百萬條訊息

說起 Kafka 的第一個突出特定就是“快”,而且是那種變態的“快”。據最新的資料:每天利用 Kafka 處理的訊息超過1萬億條,在峰值時每秒鐘會發布超過百萬條訊息,就算是在記憶體和 CPU

資料時代如何有效保護個人隱私?

“大資料時代,個人隱私保護是使用者關注的焦點,要切實防止個人資訊洩露。”全國人大代表、小米科技董事長雷軍,在今年兩會上提交的一份題為“加快實施大資料國家戰略”的建議案中的這番表述引起了眾多網友的共鳴。1、隱私的價值所在分散在各個系統中的資料乍一看價值不大,但如果把它們深入整合

資料時代資料或將為企業招聘帶來巨大改變

藉助大資料發現並招聘到最適合的人才,其實這已不再是什麼祕密,尤其對於小型企業和剛建立的企業來說。雖然網際網路確實給我們提供了大量的潛在、適合人才的資訊,但是蒐集、瀏覽所有的資訊卻是一件費時費力的工作。這讓我們懷念起那些逝去的歲月中,人才推薦是唯一挑選員工的方式。(事實上,人才

資料時代生活、工作與思維的變革》讀書筆記

引言 1、        大資料與雲端計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過雲端計算對大資料進行分析、預測,會是的決策更為精準,釋放出更多資料的隱藏價值。資料,這個21世紀人類探索的新邊疆,正在被雲計算髮現、征服。 2、        人類儲存資訊量

人工智慧發展時代,如何利用資料改變現有商業模式?

​社交媒體上,我們很多時候展示的都不是真實的自己,每個人都在不斷的給自己貼標籤:正直、成熟、知識淵博等等,分析這樣的大資料真的有意義嗎? 在交流中,人們更多的是通過非語言訊號實現的,手勢、喜歡、厭惡、猶豫、裝飾、密碼、狀態更新等,都是所謂的小資料。 找到痛點,不用研究幾百萬名顧客,只要研

資料時代如何把握好資料

大家都知道,大資料流行的今天,已經對於科技、社會帶來了很多方面的影響,正因為如此,我們需要把握好大資料時代的機遇,但是機遇後面一般是挑戰,所以我們還需要謹慎對待大資料的挑戰,那麼我們怎麼做才能夠把握好大資料呢?一般來說,我們需要做好資料的整理工作並且需要清楚資料分析的特點即可。 在大資料時代,我們需要做

資料時代地理資訊服務中資料傳輸

人類社會進入大資料時代,資料成為了繼土地、勞動力與資本之後的新的要素。用資料決策、用資料評價成為越來越普遍的要求。當前,大資料引發著各行業、各領域商業模式、生產模式與管理模式的變革和創新,將對經濟社會發展與人們的生產生活方式產生深遠的影響。大資料時代,測繪心理資訊服務需求

資料時代,“還原”鏈上資料,傳遞數字價值,從使用Gikee開始

8月末、9月初,區塊鏈行業迎來一場大地震——多家區塊鏈媒體微信公眾賬號被永久封禁,其中不乏金色財經、火幣資訊、幣世界等大號。 這場封號風波其實並非空穴來風,今年 3 月,人民網旗下人民創投就曾公開發文批評區塊鏈媒體。如今,線上、線下一起遭遇最強監管,對於整個區塊鏈媒體們而言

資料時代,區塊鏈在資料安全領域有什麼樣的表現?

    大資料時代之下,一如我們無法抗拒科技進步帶來的便捷及歡愉,我們同樣也無法避免在享受這一切的過程中留下自己的“數字足跡”。正因如此,資料如今已然被納入企業的戰略資源,開始指導決策,成為其提高行業核心競爭力的關鍵一環。   當今的數字化時代,資料可謂是這個時代的第一生產力

2,socket迴圈接收資料:socket迴圈接收資料,問socket非同步接收資料

問:socket非同步接收資料? 1、客戶端傳送給伺服器的位元組長度大於伺服器接收預設的位元組長度的話,伺服器會...        答:客戶端接收緩衝區設定多大就接收多大的資料包,當然傳送端傳送資料大於客戶端緩衝區時,接收函式完成一次接收後會返回當前資料大小,你可以根

資料時代,如何蒐集有效資料

在上一篇文章《大資料時代,引數怎麼降維?》(傳送門)[1]中,小編從阿爾茲海默症成病機理出發,提到了如何對模型引數降維的問題。我們先來複(Yù)習(Xí)一下那張圖表: 經過復(Yù)習(Xí)後,這張圖似乎不再那麼催人入眠了!不僅如此,而且我們可以使用資訊幾

資料時代(三)資料的隱患

       大資料中充斥著大量的資訊,大量資訊的相互關聯能產生意想不到的效果,能預測曾經只能天馬行空的未來。資料的海洋能讓人們在其中遠航,也會使人們在其中迷失方向,能充分利用海洋資源,也很可能被大

資料演算法對5億資料進行排序

0.前言: 在大資料研究的路上,我們總要對一些很大的資料進行各種各樣的操作。比如說對資料排序,比如說對資料統計,比如說對資料計算。而在大量的資料面前,我們總是束手無策,因為我們無法在限定時間的情況下,在效率上做到讓人滿意,也無法在限定空間的情況下,能夠快速解決問題。可能我們