開放的一天,吳恩達、谷歌、Facebook紛紛開源資料集
在這篇文章中,我們將介紹這幾天開源的三種資料集,它們與已有的通用資料集都不太一樣,且更關注精細化的任務。例如在谷歌開源的 QA 資料集中,它裡面都是真實的搜尋問題,答案也都是從維基百科查詢的。這種大型的真實資料集更適合訓練一個不那麼「低智商」的 QA對話系統,也更符合成年人實際會問的一些問題。
其它如吳恩達等研究者開放的胸部影像資料集和 Facebook 開源的新型影象描述資料集都很有特點,也許以後年年體檢的「胸片」就能使用 DL 輔助診斷了,也許文字內容和影象內容以後就能相互轉換了。
谷歌提出自然問答資料集 Natural Questions(NQ)
開放性的問答任務一直是衡量自然語言理解的好標準,QA 系統一般能閱讀網頁並返回正確的答案。然而目前並沒有比較大的自然問答資料集,因為高質量的自然問答資料集需要大量實際問題以及尋找正確答案的人力成本。為了解決這一問題,谷歌近日開放了一個大規模資料集 Natural Questions(NQ),它可以用來訓練並評估開放性問答系統,並且再現了人類尋找問題答案的端到端過程。
NQ 資料集非常大,包含 30 萬條自然發生的問題,以及對應的回答標註,其中每一條回答都是由人工從維基百科頁面找到的。此外,這個自然問答資料集還包括 1.6 萬個特殊樣本,其中每一個樣本的答案都由 5 個不同的標註者標註,因此這種多樣性的回答更適合評估 QA 系統的效果。
因為回答 NQ 中的自然性問題比回答「小問題」有更高的要求,模型需要對提問有更深的理解,因此這樣的模型會更復雜,也會更貼近真實問答場景。所以谷歌在釋出這個資料集的同時,還提出了一項挑戰賽,它希望挑戰賽能激勵研究者基於這個資料集做出更好的問答系統——更能理解自然語言的問答系統。
NQ 資料集的論文中展示了標註的過程與結果。簡而言之,谷歌的標註過程可以分為以下幾個步驟:向標註者呈現問題和維基百科頁面;標註者返回一個長回答與短回答。其中長回答(I)可以為維基百科頁面上的 HTML 邊界框,一般可以是一段話或一張表,它包含回答這些問題的答案。當然,如果沒有合適的答案或者答案太分散,標註者也可以返回 I=NULL。短回答(s)可以是 I 中的一個或一組實體,它們可回答問題。如下展示了資料集的樣本示例:
圖 1:資料集中的樣本標註。
論文:Natural Questions: a Benchmark for Question Answering Research
論文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf
摘要:我們提出了 Natural Questions(NQ)語料庫,它是一種新型問答資料集。問題都是提交到谷歌搜尋引擎的匿名搜尋請求。標註者會收到一條問題以及對應的維基百科頁面,該維基百科頁面通過問題的谷歌搜尋結果(Top 5)確定。標註者會標註一個長回答(通常是段落)和一個短回答,其中如果頁面有明確答案,短回答是單個或多個實體,如果沒有答案,短回答和長回答標註為 NULL。
目前資料集包含 307373 對訓練樣本,它們有單個標註;7830 對開發或驗證樣本,它們有 5 種標註;還有 7842 對測試樣本,它們也有 5 種標註。我們還提出了驗證資料質量的實驗,並分析了 302 個樣本的 25 種標註,從而充分了解標註任務中的人工差異。為了評估問答系統,我們提出了魯棒性的度量方法,並表示這些指標有非常高的人類上邊界;我們同樣使用相關文獻中的競爭性方法建立了基線結果。
吳恩達提出胸部放射影像資料集 CheXpert
胸部放射影像是全球最常見的影像檢查,對很多威脅終身的疾病的篩查、診斷和治療至關重要。在本文中,作者介紹了一種用於解釋胸部放射影像的大型資料集——CheXpert (Chest eXpert)。該資料集包含來自 65,240 個病人的 224,316 張胸部放射影像,這些影像中標註了 14 種常見的胸部放射影像觀察結果。作者設計了一個標註工具(labeler),它能夠從放射報告文字中提取觀察結果並使用不確定性標籤捕捉報告中存在的不確定性。
圖 1:CheXpert 任務旨在根據多視角胸部放射影像預測不同觀察結果的概率。
CheXpert 任務要根據多視角胸部放射影像(見圖 1)來預測 14 種不同觀察結果的概率。作者尤其關注資料集中的不確定性標籤,並研究了結合這些不確定性標籤來訓練模型的不同方法。然後在包含 200 項標記的驗證集上評估了這些不確定性方法的效能,這些標註真值由 3 位放射科醫生一致確定,他們用放射影像註釋了該驗證集。作者根據病理的臨床意義和在資料集中的流行程度,在 5 個選定的觀察結果上評估其方法,發現不同的不確定性方法能夠用於不同的觀察結果。
表 1:CheXpert 資料集包含 14 個標記的觀察結果。作者報告了訓練集中包含這些觀察結果的研究數量。
論文:CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison
論文地址:https://arxiv.org/abs/1901.07031v1
摘要:大型的標記資料集使得深度學習方法在諸多醫療影像任務上獲得了專家級的表現。我們要展示的 CheXpert 是一個大型資料集,它包含來自 65,240 個病人的 224,316 張胸部放射影像。我們設計了一個標註工具(labeler)來自動檢測影像報告中的 14 種觀察結果,並捕捉影像解釋中固有的不確定性。我們研究了使用不確定性標籤訓練卷積神經網路的不同方法,該網路在給定可用正面和側面放射影像的情況下輸出這些觀察結果的概率。在一個包含 200 項胸部放射影像研究的驗證集上,我們發現不同的不確定性方法可以用於不同的病理,這些研究由 3 位經過認證的放射科醫生手工註釋。然後,我們在包含 500 項胸部放射影像研究(這些研究由 5 位經過認證的放射科醫生一致註釋)的測試集上評估我們的最佳模型,並將模型的表現與另外 3 位放射科醫生檢測 5 種選定病理的表現進行比較。對於心臟肥大、水腫和胸腔積液三種疾病,ROC 和 PR 模型曲線位於所有 3 個放射科醫師操作點之上。我們將該資料集作為評估胸部放射影像解釋模型效能的標準基準公開發布。
該資料集可從以下地址免費獲取:
https://stanfordmlgroup.github.io/competitions/chexpert
Facebook 提出新型視覺定位資料集 BISON
為系統提供關聯語言內容和視覺內容的能力是計算機視覺領域的一大成就。影象描述生成和檢索等任務旨在測試這種能力,但是複雜的評估指標也同時帶來了一些其它能力和偏差。Facebook 近日發表論文,介紹了一種替代性視覺定位系統評估任務 Binary Image SelectiON (BISON) :給出影象描述,讓系統從一對語義相似的影象中選擇與影象描述最匹配的圖。系統在 BISON 任務上的準確率不僅可解釋,還能夠衡量系統關聯影象描述中精細文字內容與影象中視覺內容的能力。Facebook 研究者收集了 BISON 資料集,它補充了 COCO Captions 資料集。研究者還使用 BISON 資料集對影象描述生成和基於描述的影象檢索系統進行輔助評估。影象描述生成的度量指標表明視覺定位系統已經優於人類,但 BISON 表明這些系統與人類表現還有距離。
圖 2:COCO-BISON 資料集收集過程圖示:研究者使用 COCO captions 資料集進行 BISON 資料集收集工作。首先利用描述相似度尋找相似影象,然後標註者選擇對影象對中其中一個影象的描述,最後研究者讓多個標註者分別基於描述選擇正確的影象,從而驗證標註的準確性。
該研究由美國南加州大學博士 Hexiang Hu 和 Facebook 研究者合作完成。目前已開源了驗證資料和評估程式碼。
-
驗證資料:https://raw.githubusercontent.com/facebookresearch/binary-image-selection/master/annotations/bison_annotations.cocoval2014.json
-
評估程式碼:https://github.com/facebookresearch/binary-image-selection
-
論文地址:https://arxiv.org/abs/1901.06595