通過Crowd Layer,利用眾包標註數據集進行深度學習">通過Crowd Layer,利用眾包標註數據集進行深度學習

分類:IT技術 時間:2017-10-04

本文通過在深度神經網絡中引入一種新型眾包層(crowd layer),通過反向傳播方式,直接利用噪聲標簽實現端到端的訓練。該方法可獲取不同標註者的可信度和偏差,並在不同數據集上取得最優結果。

論文鏈接:https://arxiv.org/pdf/1709.01779.pdf

摘要: 在過去幾年中,深度學習顯著提高了機器學習各個分支的先進技術水平,給機器學習領域帶來了變革。然而,隨著監督式人工神經網絡的規模不斷增大,對大型標註數據集的需求量也越來越大。近期,眾包成為以可擴展的方式標註大型數據集的一種高效、廉價的解決方案。但這通常需要整合來自不同專業水平的多個噪聲標簽貢獻者的標簽。在這篇論文中,我們針對的就是深度神經網絡的眾包訓練問題。首先,我們將介紹最大期望值算法(EM),這種算法同時學習網絡中的參數和不同標註者進行分類設置的混淆矩陣。然後,我們提出了一種新型的通用眾包層(crowd layer),這個層可以使深度神經網絡用反向傳播的方式,直接利用不同標註者的噪聲標簽進行端到端的訓練。我們的實驗結果表明使用這種方法可以內部獲取不同標註者的可信度和偏差,並在不同設置(如分類、回歸和序列標註)的各種眾包數據集上得到最優結果。

圖 1. 具備 4 個類別和 R 個標註者的分類 CNN 的瓶頸結構

表 1:不同分類數據集的準確率結果:狗 vs. 貓和 LabelMe

圖 2. 標註者的真實敏感度(true sensitivity)和真實特異度(true specificity)與狗 vs. 貓數據集中的權重矩陣 w^r 對角線元素的對比。

圖 3. 權重矩陣 w^r 和對應的混淆矩陣的對比。

表 2. MovieReviews(MTurk)數據集的訓練結果。

圖 4. 學得的 b^r 參數和標註者的真實偏差之間的關系。

表 3. CoNLL-2003 NER(MTurk)數據集的訓練結果。


Tags: 標註 不同 神經網絡 數據 深度 包層

文章來源:


ads
ads

相關文章
ads

相關文章

ad