【番外】負取樣原理

本來不想先寫這篇的，有個任務要用到，就花了一天時間弄清楚，然後總覺得要寫點什麼，就寫了。

NCE（噪聲對比估計）

負取樣可以看成 NCE 的特化，所以有必要先講一下 NCE。

在 Softmax 迴歸中，樣本屬於某個分類的概率是：

$P (y = k$

∣ x ) = exp ⁡ ( w

k T x + b k )

∑ j e x p ( w j T x + b j )   = exp ⁡ ( w k T x + b k ) Z P(y=k|x) = \frac{\exp(w_k^T x + b_k)}{\sum_j exp(w_j^T x + b_j)} \\ \, \\ = \frac{\exp(w_k^T x + b_k)}{Z}

P (y = k ∣ x) = \frac{exp ( w _{k}^{T} x + b _{k} )}{\sum _{j} e x p ( w _{j}^{T} x + b _{j} )} = \frac{exp ( w _{k}^{T} x + b _{k} )}{Z}

也就是說，要計算它屬於某個分類的概率，就要把所有分類的概率都計算出來。有的時候算力計算一個是夠的，但不夠計算這麼多。

NCE 的想法很簡潔，把多分類變成二分類，還用相同的引數。

我們需要在資料集上取樣。對於每個樣本，它的特徵為 $x$ ，選取它所屬的類別，並根據某個分佈 $N(y)$ 選取 $n$ 個其它類別，作為標籤 $y$ 。然後對於每個 $y$ ，把 $(x, y)$ 當做新樣本的特徵。

然後給每個新樣本一個標籤 $d$ ，如果 $x$ 屬於 $y$ ，那麼 $d = 1$ ，否則 $d = 0$ 。

然後整個問題就變成了優化 $P(d = 1| y, x)$ 。

我們觀察到，在新的資料集中，如果我們選取 $d = 1$ 的樣本，它們的 $x, y$ 和原始樣本一樣。也就是：

$P(y | x, d = 1) = P_0(y | x)$

為了避免混淆，把原資料集上的那個函式加了個下標 0。

如果我們選取 $d = 0$ 的樣本，它們的 $y$ 就是分佈 $N(y)$ ，與 $x$ 無關。

$P(y | x, d = 0) = N(y)$

還有，對於每個 $x$ ， $d$ 總會有一個 1 和 $n$ 個 0。

$P(d = 1 | x) = \frac{1}{n + 1} \\ \, \\ P(d = 0 | x) = \frac{n}{x + 1}$

把它們乘一起，就得到了聯合分佈：

$P(d = 1, y | x) = \frac{1}{n + 1} P_0(y | x) \\ \, \\ P(d = 0, y | x) = \frac{n}{n + 1} N(y)$

然後計算需要優化的那個函式：

$P(d = 1| y, x) = \frac{P(d = 1, y | x)}{P(d = 1, y | x) + P(d = 0, y | x)} \\ \, \\ = \frac{P_0(y | x)}{P_0(y | x) + nN(y)}$

負取樣

到現在還是算不出來，Mikolov 在此基礎上做了兩個改動：

第一，把 $N(y)$ 變成所抽樣標籤上的均勻分佈，那麼 $nN(y) = 1$ 。

第二，把配分項 $Z$ 變成模型的一個引數 $z$ 。

於是，

$P (d = 1 ∣ y, x) = \frac{P_{0} (y ∣ x)}{P_{0} (y ∣ x) + 1} = \frac{\exp (w_{k}^{T} x + b_{k})}{\exp (w_{k}^{T} x + b_{k}) + z} = \frac{1}{1 + \exp (- w_{k}^{T} 相關推薦 .r{ margin-bottom:10px; border-bottom:1px solid #f1f1f1; padding-bottom:10px;}
.r p{ color:#999; line-height:25px;}
.r h5 a{ font-size:16px; line-height:25px;}
.r h5 a:hover{ color:#ff6600} 【番外】負取樣原理本來不想先寫這篇的，有個任務要用到，就花了一天時間弄清楚，然後總覺得要寫點什麼，就寫了。

NCE（噪聲對比估計）
負取樣可以看成 NCE 的特化，所以有必要先講一下 NCE。
在 Softmax 迴歸中，樣本屬於某個分類的概率是：【番外】線性迴歸和邏輯迴歸的 MLE 視角線性迴歸
令

z

=

w 【番外】一個新手如何選購配件比價到完成電腦組裝購買前
買前可以確定自己組裝用來做什麼，一般可以分三種：1.普通辦公看電影小遊戲；2.能暢玩3A單機大作； 3.視訊剪輯特效渲染工作。如果是第一次組裝，最好就選第一種就算翻車損失也小，但是可以在選購主機板和電源注意一下就可以，這【番外篇】 ASP.NET MVC快速入門之免費jQuery控件庫（MVC5+EF6） south ade 批量刪除 HP 存儲重新 mode eve 穩定目錄
【第一篇】ASP.NET MVC快速入門之數據庫操作（MVC5+EF6）
【第二篇】ASP.NET MVC快速入門之數據註解（MVC5+EF6）
【第三篇】ASP.NET MVC快速入門之安全策略 PostCSS自學筆記（二）【番外篇一】利用PostCSS解決移動端REM適配問題
上一期有提到結合postcss-px2rem外掛來處理移動端適配的方案，以及相關的避坑方法，之後總覺得這個解決方案問題太多，也就誕生了另一套方案運用postcss-pxtorem外掛來進行處理。
那麼這期番外篇講的就是postcss-px2rem和【轉載】負取樣演算法任何取樣演算法都應該保證頻次越高的樣本越容易被取樣出來。基本的思路是對於長度為1的線段，根據詞語的詞頻將其公平地分配給每個詞語：

counter就是w的詞頻。
於是我們將該線段公平地分配了：

接下來我們只要生成一個0-1之間的隨機數，看看落到哪個區間，就能取樣到該區間對應的單詞了，很公平。
但 Java微信公眾平臺開發【番外篇】 (七)--公眾平臺測試帳號的申請轉自；http://www.cuiyongzhi.com/post/45.html
前面幾篇一直都在寫一些比較基礎介面的使用，在這個過程中一直使用的都是我個人微博認證的一個個人賬號，原本準備這篇是寫【多媒體訊息回覆】的，後來主要到我個人賬號的介面許可權不夠，所以在這裡插入一篇【公眾平臺測試帳號的申請】的文章 Java微信公眾平臺開發(十四) 【番外篇】 --微信web開發者工具使用 str weixin ron log 返回 nbsp 地址欄 alt 直接轉自：http://www.cuiyongzhi.com/post/58.html
為幫助開發者更方便、更安全地開發和調試基於微信的網頁，微信推出了 web 開發者工具。它是一個桌面應用，通過模擬微【番外篇】聊一聊深度學習中的資料增強與實現深度學習的訓練往往需要海量的資料，而如今資料又是如此的寶貴（如醫學影象），因此如何利用有效的資料獲得更好的效果呢？資料增強（data augmentation）就是一種常用的方法。

工欲善其事必先利其器。

先來看下實現本文資料增強所需要的必要環境：

python3.5 【番外篇】 ASP.NET MVC快速入門之免費jQuery控制元件庫（MVC5+EF6）目錄

FineUIMvc簡介
FineUIMvc 是基於 jQuery 的專業 ASP.NET MVC 控制元件庫，其前身是基於 WebForms 的開源控制元件庫 FineUI（歷時9年120多個版本）。FineUIMvc（基礎版）包含開源版的全部功能，支援 30 種內建主題和【基礎知識】 ActiveMQ基本原理 system 鏈接以及重啟 alt 過濾器全部 pro 相關 “來，根據你的了解說下 ActiveMQ 是什麽。”
“這個簡單，ActiveMQ 是一個 MOM，具體來說是一個實現了 JMS 規範的系統間遠程通信的消息代理。它&h 【機器學習】 Weighted LSSVM 原理與Python實現：LSSVM的稀疏化改進【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

一、LSSVM

1、LSSVM用於迴歸
2、LSSVM模型的缺點

二、WLSSVM的數學原理
三、WLSSVM的python實現
參【影象處理】工業相機原理詳述（轉載）轉自：
https://blog.csdn.net/HelloZEX/article/details/80905095

工業相機是機器視覺系統中的一個關鍵元件，其最本質的功能就是將光訊號轉變成有序的電訊號。選擇合適的相機也是機器視覺系統設計中的重要環節，相機的選擇不僅直接決定所採集到的影象【機器學習】 Apriori演算法—— 原理及程式碼實現（Python版） Apriopri演算法

Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。【 HBase-2 】 HBase的原理和架構一、邏輯儲存模型 HBase以表的形式儲存資料，表由行和列組成。列劃分為若干個列族，
RowKey：Hbase使用Rowkey來唯一的區分某一行的資料。如圖中"rk001" &nb 【目標檢測】目標檢測原理與實現(五)--基於Cascade分類器的目標檢測基於Cascade分類器的目標檢測

從今天開始進入基於機器學習的目標檢測，前幾節雖然也接觸了一些機器學習的方法，但它主要是做輔助工作，機器學習的方法和非機器學習的方法結合在一起使用，說到這想起來前幾天看到一位博士師兄發的笑話，說的是百度實驗室：【 java基礎】 ConcurrentHashMap實現原理及原始碼分析 ConcurrentHashMap是Java併發包中提供的一個執行緒安全且高效的HashMap實現（若對HashMap的實現原理還不甚瞭解，可參考我的另一篇文章），ConcurrentHashMap在併發程式設計的場景中使用頻率非常之高，本文就來分析下Concurre 【排序演算法】歸併排序原理及Java實現 1、基本思想：

歸併排序就是利用歸併的思想實現的排序方法。而且充分利用了完全二叉樹的深度是的特性，因此效率比較高。其基本原理如下：對於給定的一組記錄，利用遞迴與分治技術將資料序列劃分成為越來越小的半子表，在對半子表排序，最後再用遞迴方法將排好序的半子表合併成為【網際網路安全】 DDoS攻防原理及實戰分散式拒絕服務(DDoS:Distributed Denial of Service)攻擊指藉助於客戶/伺服器技術，將多個計算機聯合起來作為攻擊平臺，對一個或多個目標發動DDoS攻擊，從而成倍地提高拒絕服務攻擊的威力。通常，攻擊者使用一個偷竊帳號將DDoS主控程式安裝在一個計算機上，在一個設定的時間【單鏈表】快慢指標原理 -Java語言 1.結點類

package blog;

/**
* @Description: 結點類
* @author: liuqiang
* @Date: 2018/12/28 23:33
*/
public class Node {
public String data; // 結點的資料域搜尋基礎教學 Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門最近訪問首頁前端設計程式設計免費資源實用技巧資料庫資訊字典 Copyright © 2002-2020 程式人生 796T.COM All rights reserved..footer{padding-bottom: 20px;}hljs.initHighlightingOnLoad();}$

【番外】負取樣原理

NCE（噪聲對比估計）

負取樣

【番外】負取樣原理

【番外】線性迴歸和邏輯迴歸的 MLE 視角

【番外】一個新手如何選購配件比價到完成電腦組裝

【番外篇】ASP.NET MVC快速入門之免費jQuery控件庫（MVC5+EF6）

PostCSS自學筆記（二）【番外篇一】

【轉載】負取樣演算法

Java微信公眾平臺開發【番外篇】(七)--公眾平臺測試帳號的申請

Java微信公眾平臺開發(十四)【番外篇】--微信web開發者工具使用

【番外篇】聊一聊深度學習中的資料增強與實現

【番外篇】ASP.NET MVC快速入門之免費jQuery控制元件庫（MVC5+EF6）

【基礎知識】ActiveMQ基本原理

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【影象處理】工業相機原理詳述（轉載）

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

【HBase-2】HBase的原理和架構

【目標檢測】目標檢測原理與實現(五)--基於Cascade分類器的目標檢測

【java基礎】ConcurrentHashMap實現原理及原始碼分析

【排序演算法】歸併排序原理及Java實現

【網際網路安全】DDoS攻防原理及實戰

【單鏈表】快慢指標原理-Java語言