1. 程式人生 > >大資料 基礎概念

大資料 基礎概念

前言

介紹

大資料是一個以資料為核心的產業,是一個圍繞大資料生命週期不斷往復迴圈的生產過程,同時也是由多種行業協同配合而產生的一個複合性極高的行業。

生命週期

  1. 資料收集
  2. 資料儲存
  3. 資料建模
  4. 資料分析
  5. 資料變現

大資料產業

《白話大資料與機器學習》

在大資料產業中,資料通過各種方式、軟體進行收集,藉助網路這種媒介進行傳輸,通過與資料中心進行儲存,通過資料科學家或者行業專家進行儲存,通過資料科學家或者是行業專家進行建模和加工,最後資料分析得到的是一種知識,是一種人們通過資料洞悉世界的能力

資料之間本來彼此錯綜複雜的潛在關係會使得大量孤立而多來源的資料同時出現在一個舞臺顯得更加有趣,大量看似不相關的事情卻能夠通過觀察與分析後告訴人們更多背後的因果。這些因果聯絡的意義會讓人們在各個方面能夠推測未來趨勢,減少試錯的機會,減少成本,降低風險,解放勞動力。

這才是大資料產業本身的價值與意義所在。

資訊

1948年,數學家夏農(Claude Elwood Shannon)在題為《通訊的數學理論》的論文中指出:“資訊是用來消除隨機不定性的東西”。

商業智慧BI

BI:Business Intelligence

商業智慧——業界比較公認的說法是在1996年最早由Gartner Group提出的一個商業概念,通過應用基於事實的支援系統來輔助商業決策的指定。商業智慧技術提供使企業迅速分析資料的技術和方法,包括收集、管理和分析資料,將這些資料轉化為有用的資訊。

業界普遍認可的方式就是基於大量的資料所做的規律性分析。因此,市面上成熟的商業智慧軟體大多是基於資料倉庫做資料建模和分析,以及資料探勘和報表的。

數學基礎知識

統計與分佈


所有用單一的資料定義來概括性描述一些抽象或複雜資料的方式方法都叫做“指標”。下面介紹幾個比較常見的指標。

加和值

使用一個一次性數值的加和值(累加值)對一群事物進行描述。好處就是人們可以直接忽略內部細節,直奔主題,即總量。

平均值

用一個簡潔的資料定義概括了眾多資料的特性。這是一種用於對物件資料進行巨集觀描述的方便的數值計算和描述方法。

標準差

描述實際資料和平均資料之間的差異性有多大,這就需要使用標準差了。
σ = 1 n i = 1 n ( X i X ˉ ) 2 \sigma=\sqrt{\frac{1}{n} \sum_{i=1}^n(X_i - \bar{X})^2}

加權平均

平均值這種指標有一個“兄弟”,就是加權均值。權(Weight)指的是權重,也就是指所佔的“比重”或“重要”程度。

加權決策

在決策中做加權平均的目的是為了讓整個決策既融合眾多參與方、利益方的意見,同時也儘量使它向著更權威、更理性、更科學的方面傾斜,這是它的核心指導思想。這裡只是泛泛地用這樣一個場景做說明,實際操作起來會更加複雜、嚴謹與合理。加權平均在決策中的用法是比較常見的,在經濟管理學領域的“德爾菲法則”(Delphi Method)中加權平均是一個重要的思想。

據稱德爾菲法則是在20世紀40年代由赫爾默(Helmer)和戈登(Gordon)首創。1946年,美國蘭德公司為避免集體討論存在的屈從於權威或盲目服從多數的缺陷,首次用這種方法進行定性預測,後來該方法被迅速廣泛採用。20世紀中期,當美國政府執意發動朝鮮戰爭時,蘭德公司又提交了一份預測報告,預告這場戰爭必敗。政府完全沒有采納,結果幾年後一敗塗地。從此以後,德爾菲法得到廣泛認可。

眾數

在樣本物件中出現最多的那個數字。

中位數

中位數,顧名思義,就是位於中間位置的數字。

歐氏距離

所謂歐氏距離中的“歐”指的是被稱作幾何之父的古希臘數學家歐幾里得。歐氏距離是在其鉅著《幾何原本》中提到的一個非常重要的概念。歐氏距離的定義大概是這樣的:在一個 N N 維度的空間裡,求兩個點的距離,這個距離肯定是一個大於等於 0 0 的數字(也就是說沒有負距離,最小也就是兩個點重合的零距離),那麼這個距離需要用兩個點在各自維度上的座標相減,平方後加和再開平方。

二維的情況:
c = ( x 1 x 2 ) 2 + ( y 1 y 2 ) 2 c = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2 }
三維的情況:
d = ( x 1 x 2 ) 2 + ( y 1 y 2 ) 2 + ( z 1 z 2 ) 2 d = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2 + (z_1 - z_2)^2}

曼哈頓距離Manhattan Distance

歐氏距離是人們在解析幾何裡最常用的一種計算方法,但是計算起來比較複雜,要平方,加和,再開方,而人們在空間幾何中度量距離很多場合其實是可以做一些簡化的。曼哈頓距離就是由19世紀著名的德國猶太人數學家——赫爾曼·閔可夫斯基發明的。

曼哈頓距離也叫出租車距離,用來標明兩個點在標準座標系上的絕對軸距總和。

c = x 1 x 2 + y 1 y 2 c = | x_1 - x_2| + |y_1 - y_2|

曼哈頓距離和歐氏距離的意義相近,也是為了描述兩個點之間的距離,不同的是曼哈頓距離只需要做加減法,這使得計算機在大量的計算過程中代價更低,而且會消除在開平方過程中取近似值而帶來的誤差。不僅如此,曼哈頓距離在人脫離計算機做計算的時候也會很方便。

同比

與相鄰時段的同一時期相比,例如今年7月同比增長10%的意思就是今年7月的銷售額和去年7月的銷售額相比增長10%。

環比

就是直接和上一個報告期進行比較,比如今年七月環比增長25%的意思就是今年7月的銷售額和今年6月的銷售額相比增長25%。

抽樣

抽樣(Sampling)是一種非常好的瞭解大量樣本空間分佈情況的方法,樣本越大則抽樣帶來的成本減少的收益就越明顯。

高斯分佈

正態分佈(Normal Distribution)又名高斯分佈(Gaussian Distribution),是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面有著重大的影響力。

f ( x ) = 1 2 π σ e x p ( ( x μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})

更多請參見於:高斯分佈

泊松分佈

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、雷射的光子數分佈等等。

P ( X = k ) = λ k k ! e λ , k = 0 , 1 , 2 , 3... P(X = k) = \dfrac {\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2 ,3...

更多請參見與:泊松分佈

伯努利分佈Bernoulli Distribution

伯努利分佈(Bernoulli Distribution)是一種離散分佈,在概率學中非常常用,有兩種可能的結果,1表示成功,出現的概率為 p p (其中 0 < p < 1 0<p<1 );0表示失敗,出現的概率為 q = 1 p q=1-p 。這很好理解,除去成功都是失敗, p p 是成功的概率,概率100%減去 p p 就是失敗的概率。

P ( X = k ) = C n k p k ( 1 p ) n k P(X = k) = C_n^kp^k(1-p)^{n-k}

更多請參見於:伯努利分佈

資訊

資訊量

在日常生活中,極少發生的事件一旦發生是容易引起人們關注的,而司空見慣的事件不會引起注意,也就是說,極少見的事件所帶來的資訊量大。如果用統計學的術語來描述,就是出現概率小的事件資訊量大。因此,事件出現的概率越小,資訊量越大,即資訊量的多少是與事件發生頻繁程度大小(即概率大小)恰好相反的,這裡不能稱作成反比,因為它們不是倒數關係。

H ( X i ) = l o g 2 P H(X_i) = -log_2P

X i X_i 表示一個發生的事件, P P 表示這個事件發生的先驗概率。所謂先驗概率,就是這個事件按照常理,按照一般性規律發生的概率。

夏農公式

C = B l o g 2 ( 1 + S N ) C = Blog_2(1+ \dfrac {S}{N})

  • W W 為通道的頻寬(以 Hz 為單位)
  • S S 為通道內所傳訊號的平均功率
  • N N