1. 程式人生 > >sklearn:點互資訊和互資訊

sklearn:點互資訊和互資訊

1、點互資訊PMI

機器學習相關文獻裡面,經常會用到點互資訊PMI(Pointwise Mutual Information)這個指標來衡量兩個事物之間的相關性(比如兩個

詞)。

其原理很簡單,公式如下:



在概率論中,我們知道,如果x跟y不相關,則p(x,y)=p(x)p(y)。二者相關性越大,則p(x, y)就相比於p(x)p(y)越大。用後面的式子可能更

理解,在y出現的情況下x出現的條件概率p(x|y)除以x本身出現的概率p(x),自然就表示x跟y的相關程度

舉個自然語言處理中的例子來說,我們想衡量like這個詞的極性(正向情感還是負向情感)。我們可以預先挑選一些正向情感的詞,

比如good。然後我們算like跟good的PMI。

2、互資訊MI

點互資訊PMI其實就是從資訊理論裡面的互資訊這個概念裡面衍生出來的。  

互資訊即:


其衡量的是兩個隨機變數之間的相關性,即一個隨機變數中包含的關於另一個隨機變數的資訊量。所謂的隨機變數,即隨機試驗結

果的量的表示,可以簡單理解為按照一個概率分佈進行取值的變數,比如隨機抽查的一個人的身高就是一個隨機變數。

可以看出,互資訊其實就是對X和Y的所有可能的取值情況的點互資訊PMI的加權和。因此,點互資訊這個名字還是很形象的。

3、sklearn程式設計

from sklearn import metrics as mr
mr.mutual_info_score(label,x)

label、x為list或array。

計算x和label的互資訊。

相關推薦

sklearn資訊資訊

1、點互資訊PMI 機器學習相關文獻裡面,經常會用到點互資訊PMI(Pointwise Mutual Information)這個指標來衡量兩個事物之間的相關性(比如兩個 詞)。 其原理很簡單,公式如

遙感影象處理 | 採用GDAL讀取影象成功後獲取影象的一些基本資訊統計資訊(C#)

描述資訊:  const char*  GDALDataset.GetDriver().GetDescription(),通常是影象的格式 影象大小:  影象寬度  int  GDALDataset.GetRasterXSize() &nbs

通過java程式碼獲取jvm資訊系統資訊

轉載自LOC_Thomas的部落格 前言 隨著微服務的概念逐漸流行,監控成了必不可少的模組,本篇文章主要介紹一下如何通過java程式碼獲得一些核心的資料,方便從各個方面對應用進行監控 獲取jvm資料 jvm資料是監控應用很重要的一系列引數,一般本地開發的時候可以通過jcons

使用Linux輸出重定向將debug資訊ERROR資訊分離

最近在安裝Apache sentry,發現啟動metastore和hiveserver2服務的時候會彈出大量的debug資訊,有時候需要在一長串的資訊中尋找ERROR資訊,覺得挺花時間的,於是想到使用重定向將debug資訊輸出到指定的debug目錄下,ERROR

HR人員基本資訊、分配資訊地址資訊SQL

人員資訊、分配資訊和地址資訊SQL語句: SELECT papf.employee_number employee_number, papf.last_name last_name, --員工姓名 papf.sex gender, --性別

php curl請求資訊返回資訊

在用curl抓取網頁內容的時候,經常要知道,網頁返回的請求頭資訊,和請求的相關資訊,特別是在請求過程中存在重定向的時候獲取請求返回頭資訊對分析請求內容很有幫助 下面就是一個請求中存在重定向的例子,我們的目的是要獲取最終實際請求的url地址 $url='http://ww

雙目立體匹配經典演算法之Semi-Global Matching(SGM)概述匹配代價計算之資訊(Mutual Information,MI)

  半全域性立體匹配演算法Semi-Global Matching,SGM由學者Hirschmüller在2005年所提出1,提出的背景是一方面高效率的區域性演算法由於所基於的區域性視窗視差相同的假設在很多情況下並不成立導致匹配效果較差;而另一方面全域性演算法雖然通過二維相鄰畫素視差之間

特徵選擇-熵資訊

1、熵 一個離散型的隨機變數X的熵H(X)定義為 熵常用以2為底的對數,則熵的單位用位元(bit)進行表示。 以e為底的對數,則熵的單位用nat表示 熵可以看做是隨機變數平均不確定度的度量。 2、互資訊定義(mutual information) 它是一個

熵,相對熵資訊

1.熵.熵表示隨機變數不確定度的度量。也是平均意義上描述隨機變數所需要資訊量的度量。一個離散型隨機變數的熵H(X)定義為: H(X)=−∑x∈Xp(x)logp(x) 對數的底數通常為2,熵的單位是位元,同時也可以是e來表示。用統計學來解釋就是函式g(x

Perl操作系統交(一)system、exec反引號

拷貝 擔心 關於 調試 分析 除了 特殊功能 多余 以及 調用操作系統命令:system函數 system函數可以直接讓perl調用操作系統中的命令並執行。 system入門示例 例如: #!/usr/bin/perl system 'date +"%F

智慧時代現象、資料、資訊知識

前幾天一哥們正兒八經地告訴我,他發現易經包含真正的科學思想,當然我們少不了辯論一番。我覺得東方哲學和文化,暫不評論優劣,最好別和西方科學套近乎,二者思路和方法相差甚遠。 在辯論中我列舉了地心說、日心說、開普勒定律、牛頓力學和萬有引力定律的發現,說明西方科學和東方哲學的區別。無獨有偶,

除錯技巧封裝printf列印除錯資訊巨集定義開關

/* #define DEBUG */ #ifdef DEBUG #define DEBUG_ERR(format, ...) \ do{ \ printf("\r\n"); \ printf("FILE: "__FILE__", LINE: %

python學習第二天命令行模式Python交模式

輸出 gin 所在 運行時 執行 分享圖片 enter .com alt 命令行模式 安裝完python開發環境和工具之後,在Windows開始菜單選擇“命令提示符”,就會進入到命令行模式: 或者都可以,然後 點擊enter鍵,彈出下圖中的窗口,即命令行模式,他的提示符

swift - xcode10 - 擊事件交BUG - (手勢button的addTarget方法)

font 添加 手勢 沒有 mage 控件 xcode .com enabled 1. 現象button 點擊閃退:沒有任何原因 ,在聽雲檢測上,顯示 BUG2: 手勢 沒有任何作用,哪怕設置 isUserInteractionEnabled 和isEnabled 為tr

使用O2OA二次開發搭建企業辦公平臺(八)組織管理篇建立組織個人資訊

  本部落格為O2OA系列教程、O2OA使用手冊,教程目錄和各章節天梯將在連載完後更新。 使用O2OA二次開發搭建企業辦公平臺(一)平臺部署篇:平臺下載和部署 使用O2OA二次開發搭建企業辦公平臺(二)平臺部署篇:埠衝突和伺服器埠配置 使用O2OA二次開發搭建企業辦公平

資訊學奧賽系列教程計算機硬體系統軟體系統

計算機系統: 一個完整的計算機系統有硬體系統和軟體系統構成,如下圖所示 計算機硬體系統: 本節介紹計算機硬體系統,計算機硬體系統由以下四個部分構成: 運算器、控制器(CPU)   儲存器   輸入裝置   輸出裝置

[WordPress]主題企業設計風(Tiny) 科技資訊風(Wpboxedtech)

本次為大家帶來的兩款主題是各有特色,一款是國內某位前端設計者開發的主題,另一款是國外主題,但是國內很多人在用。1.Tiny主題如其名,非常的小,只有124K,頁面也非常簡潔,有點簡約企業網站的風格,如下圖:摘自作者:使用主題之後要到後臺去設定一條選單,這個主題的名字其實就是英文tiny,小、簡單嘛,這也是我初

ALSA音效卡驅動中的DAPM詳解之二widget-具備路徑電源管理資訊的kcontrol

上一篇文章中,我們介紹了音訊驅動中對基本控制單元的封裝:kcontrol。利用kcontrol,我們可以完成對音訊系統中的mixer,mux,音量控制,音效控制,以及各種開關量的控制,通過對各種kcontrol的控制,使得音訊硬體能夠按照我們預想的結果進行工作。同時我

Python 資訊熵 條件資訊資訊資訊增益)的理解以及計算程式碼

好久沒更新部落格了,最近在學習python的貝葉斯網路構造,卡在k2演算法給無向圖打分這一步很久了,然後微微頭疼,決定把之前構造無向圖裡的自己寫的小功能函式放出來,記錄一下自己的成長過程,我比較菜,寫出來如果有錯誤希望有緣人看到能夠給出指正,如果沒有錯誤,希望給