ZIPF分佈、PARETO分佈和冪律分佈

阿新 • • 發佈：2019-02-15

看文章的時候看到網際網路上有些部分符合zipf分佈，挺都沒聽說過，於是查下。

查了些資料，發現是哈佛的語言學家zipf在研究語料庫的時候發現的，所以也叫齊普夫定律，按照單詞在語料庫中出現的次數排序，則該單詞的排序數與其在語料庫中出現頻數成反比，或者說，二者乘積為一個常數。

其公式為：P(r) = C / r^α

這裡 r 表示一個單詞的出現頻率的排名，P(r)表示排名為r的單詞的出現頻率。單詞頻率分佈中 C約等於0.1, α約等於1。

這說明在英語單詞中，只有極少部分的詞被經常使用，而絕大部分詞很少被使用。

如果按照出現頻率排序，則第二常見的單詞出現頻率是第一常見單詞出現頻率的1/2，第三常見單詞為第一常見單詞出現頻率的1/3，第三常見單詞為第一常見單詞出現頻率的1/n。

比如，在 Brown 語料庫中，“the”是最常見的單詞，它在這個語料庫中出現了大約7%（100萬單詞中出現69971次）。正如齊夫定律中所描述的一樣，出現次數為第二位的單詞“of”佔了整個語料庫中的3.5%（36411次），之後的是“and”（28852次）。僅僅135個字彙就佔了Brown 語料庫的一半。

這樣延伸出來，就是常見的“80/20法則”。80%的資源掌握在20%的人手裡。前20%的單詞出現頻率佔所有單詞的80%。

查資料發現，長尾分佈就是齊普夫定律。

長尾分佈在生活中應用的例子太多，比如，下載網路音樂，熱門歌曲佔據了絕大部分的下載量，冷門歌曲下載雖少，但下載曲線並不是迅速下降為零，而是比較穩定的維持在一定的水平上。也就是說，長尾雖然小，但穩定、持久、並不為零，這樣下來，其銷量（曲線輪廓所包圍的面積）並不小。長尾理論也是利用這樣的特性而提出的。

這樣有兩個問題，一是什麼樣的分佈是迅速降為零的？二是，長尾分佈什麼時候會出現。

問題一比較好回答，在zipf分佈中，提高α即可使分佈迅速降低為零。或者有其他方法構造分佈函式也可以。

對於問題二而言，查到的文章裡大部分只講了分佈是什麼、公式是什麼、應用到什麼情景（如歌曲或軟體的下載、語料庫中的統計、國家GDP或個人收入分佈），但對於所應用的情景卻沒有抽象出一個共同的特點。

長尾分佈是由選擇來源的豐富性（如大量供下載的曲目）造成的。一旦多樣性選擇需求不再因為來源匱乏而受到限制，長尾現象便會自然發生。

也就是說，必須來源豐富到所有需求不因來源匱乏而不被滿足，這時就符合長尾分佈。即：人得需求是符合長尾分佈的

（對熱門東西的需求佔據大部分，但還有持續不為零的小眾需求），但這種需求，在資源不夠豐富、匱乏時會受到限制，從而使長尾曲線受到遏制。直到來源豐富，選擇被放開，才會將長尾分佈的需求表現出來。

另外，上面提到的“80/20法則”是Pareto提出來的，也有以他名字命名的分佈。

19世紀的義大利經濟學家Pareto研究了個人收入的統計分佈，發現少數人的收入要遠多於大多數人的收入，提出了著名的80/20法則，即20%的人口占據了80%的社會財富。個人收入X不小於某個特定值x的概率與x的常數次冪亦存在簡單的反比關係：P[X≥k]～x^(-k)，上式即為Pareto定律。

在我看來，這就是zipf分佈的推廣，相當於對zipf分佈曲線面積進行積分。

而zipf分佈和pareto分佈，兩者又都是冪律分佈。

Zipf定律與Pareto定律都是簡單的冪函式，我們稱之為冪律分佈；還有其它形式的冪律分佈，像名次——規模分佈、規模——概率分佈，其通式可寫成y=c*x^(-r)，其中x，y是正的隨機變數，c，r均為大於零的常數。這種分佈的共性是絕大多數事件的規模很小，而只有少數事件的規模相當大。

對上式兩邊取對數，可知lny與lnx滿足線性關係，也即在雙對數座標下，冪律分佈表現為一條斜率為冪指數的負數的直線，這一線性關係是判斷給定的例項中隨機變數是否滿足冪律的依據。

參考資料：

4. 齊夫定律

ZIPF分佈、PARETO分佈和冪律分佈

看文章的時候看到網際網路上有些部分符合zipf分佈，挺都沒聽說過，於是查下。查了些資料，發現是哈佛的語言學家zipf在研究語料庫的時候發現的，所以也叫齊普夫定律，按照單詞在語料庫中出現的次數排序，則該單詞的排序數與其在語料庫中出現頻數成反比，或者說，二者乘積為一個常數。其公式為：P(r) = C

泊松分佈和冪律分佈轉

泊松分佈和冪律分佈自然界與社會生活中，許多科學家感興趣的事件往往都有一個典型的規模，個體的尺度在這一特徵尺度附近變化很小。比如說人的身高，中國成年男子的身高絕大多數都在平均值1.70米左右，當然地域不同，這一數值會有一定的變化，但無論怎樣，我們從未在大街上見

指數分佈與冪律分佈定義及不同（泊松分佈、伽馬分佈）

1、定義 (1)冪律分佈（pow law distribution），其概率密度函式形式如下，這種分佈的共性是絕大多數事件的規模很小，而只有少數事件的規模相當大。 y=cx-r 其中x，y是正的隨機變數，c，r均為大於零的常數。對上式兩邊取對數，可知lny與lnx滿足線性

冪律分佈、泊松分佈、指數分佈、長尾分佈的概念

冪律分佈（Power Law distruibition）: Zipf定律與Pareto定律都是簡單的冪函式,我們稱之為冪律分佈;還有其他形式的冪律分佈,像名次- 規模分佈、規模- 概率分佈,這四種形式在數學上是等價的,其通式可寫成 ,其

馬太效應/冪律分佈的本質以及其數學表述

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

一點一點重學統計學（二）——二項、泊松和正態分佈

貝努裡大數定律：當試驗在不變的條件下，重複次數無限大，抽樣群體某一個概率與理論概率的差值，必定小於一個任意小的正數，所以這兩者可以基本相等，也可以用線性模型來解釋，隨著抽樣的總數增加誤差的平均會越來越

去中心化和冪律之間的不可兼容

約束去中心化改變鏈接 sdn 基礎 asi 三方生命去中心化和冪律結合在一起，是一個很有意思的topic。 ??去中心化的動機在於大多數人不希望被第三方約束，只是因為他不信任第三方，然而一旦放開約束，便成就了他們所謂的去中心化，接下來的事情很有意思，他們會很快選

伯努利分佈、二項分佈、Beta分佈、多項分佈和Dirichlet分佈與他們之間的關係，以及在LDA中的應用

在看LDA的時候，遇到的數學公式分佈有些多，因此在這裡總結一下思路。一、伯努利試驗、伯努利過程與伯努利分佈先說一下什麼是伯努利試驗：維基百科伯努利試驗中：伯努利試驗(Bernoulli trial)是隻有兩種可能結果的單次隨機試驗。即：對於一個隨機變數而言，P(X

聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理、生成模型（Generative Model）和判別模型（Discriminative Model）的區別

在看生成模型和判別模型之前，我們必須先了解聯合概率與聯合分佈、條件概率與條件分佈、邊緣概率與邊緣分佈、貝葉斯定理的概念。聯合概率與聯合概率分佈：假設有隨機變數X與Y, 此時，P(X=a,Y=b)用於表示X=a且Y=b的概率。這類包含多個條件且所有條件同時成立的概率稱為聯合概率。聯合概

尾部相關性、尾部風險平價和聖盃分佈

作者：石川，量信投資創始合夥人，清華大學學士、碩士，麻省理工學院博士；精通各種概率模型和統計方法，擅長不確定性隨機系統的建模及優化。知乎專欄：https://zhuanlan.zhihu.com/mitcshi。已獲授權摘要：本文首先介紹了尾部相關性，並以此引出尾部風險平價的概念。從風險的角度

聯合概率及其分佈、邊緣概率及其分佈、條件概率及其分佈和貝葉斯定理

文章目錄聯合概率及其分佈、邊緣概率及其分佈、條件概率及其分佈聯合概率與聯合概率分佈邊緣概率與邊緣概率分佈條件概率與條件概率分佈聯合概率、邊緣概率、條件概率之間的關係離散型分佈的情況連

概率論基本概率模型、分佈、期望和方差

這段時間校招，發現很多筆試都是概率論的題目，拿出課本寫下來總結（不涉及組合和數理統計）。基本概念等可能概型（古典概型）特點試驗的樣本空間只包含有限個元素；試驗中每個基本事件發生的可能性相同。公式設試驗的樣本空間為S

關於共軛分佈，beta分佈，二項分佈和Dirichlet分佈、多項式分佈的關係

在機器學習領域中，概率模型是一個常用的利器。用它來對問題進行建模，有幾點好處：1）當給定引數分佈的假設空間後，可以通過很嚴格的數學推導，得到模型的似然分佈，這樣模型可以有很好的概率解釋；2）可以利用現有的EM演算法或者Variational method來學習。通常為

自制Hadoop偽分佈、叢集安裝詳細過程（vmware）

Hadoop單機版、偽分佈、叢集安裝教程推薦連結： http://dblab.xmu.edu.cn/blog/page/2/?s=Hadoop 注：vmware6.5及以上，執行命令基本相同，除了編輯檔案時“vi”指令替換為“vim”指令一、下載安裝所需檔案

淺談先驗分佈和後驗分佈

【前言】上文提到貝葉斯定理是先驗分佈和後驗分佈轉換的橋樑，貝葉斯學派計算引數後驗分佈的難點在於如何選擇引數的先驗分佈，本文通過二項式分佈的例子來形象的表達如何選擇先驗分佈和計算後驗分佈，並闡述了先驗分佈和後驗分佈是如何轉換的，最後對本文進行總結。 &nb

伯努利分佈、二項分佈、幾何分佈、超幾何分佈、泊松分佈

導語對於任何一個學習概率論的童鞋來說，各種分佈都是很頭痛的一件事情，本篇主要討論的是離散型隨機變數. 伯努利分佈伯努利分佈就

PyTorch 生成隨機數Tensor（標準分佈、標準正態、離散正態……)

在使用PyTorch做實驗時經常會用到生成隨機數Tensor的方法，比如： torch.rand() torch.randn() torch.normal() torch.linespace() 均勻分佈 *torch.rand(sizes, out=None) → Tensor

伯努利分佈和高斯分佈下的最大似然估計

最大似然估計：由於每一個樣本是否出現都對應著一定的概率，而且一般來說這些樣本的出現都不那麼偶然，因此我們希望這個概率分佈的引數能夠以最高的概率產生這些樣本。如果觀察到的資料為D1 , D2 , D3 ，…， DN ，那麼極大似然的目標如下：通常上面這個概率的計算並不容易。

伯努利分佈、二項分佈、多項分佈、貝塔分佈、狄利克雷分佈、高斯分佈

伯努利分佈：伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈，介紹伯努利分佈前首先需要引入伯努利試驗（Bernoulli trial）。伯努利試驗是隻有兩種可能結果的單次隨機試驗，即對於一個隨機變數X而言：伯努利試驗都可以表達為“是或否”

排隊論中的常見分佈：泊松分佈、指數分佈與愛爾朗分佈

1.概率函式 ①泊松分佈： λ表示單位時間（面積或體積等）該事件平均發生次數（到達率）則p(x=k)表示單位時間（面積或體積等）該事件發生k次的概率。數字特徵：易知，根據定義期望為λ，也能求出方差也為λ。則p(N(t)=k)表示t時

ZIPF分佈、PARETO分佈和冪律分佈

相關推薦