《異構社群問答中跨域重複問題檢測的一般性和知識可轉移性》閱讀筆記
論文地址: ofollow,noindex">On Generality and Knowledge Transferability in Cross-Domain Duplicate Question Detection for Heterogeneous Community Question Answering
重複問題識別(Duplicate Question Detection )任務簡介:
應用:為有效利用社群問答論壇(Community Question Answering (CQA) forums),使用者需要知道問題是否已經被問過,避免重複提問。重複問題檢測可以節省使用者等待回覆時間,重複優化問題,提升論壇的可檢索性。
問題難點:在於重複問題的用詞,結構可能大不相同,而且相似結果,用詞也可能語義不同。

三個資料集是:通用Quora,技術Ask Ubuntu ,和學術English Stack Exchange。

文章簡介:
本研究比較了深度神經網路和梯度樹增強(GTB)的效能,並利用三個異構資料集探討了使用轉移學習進行域適應的可能性,以改善文字對重複分類任務的不良目標域。最終,研究揭示了另一種假設,即“重複”的含義本質上不是通用目的,而是依賴於學習領域,因此通過適應領域降低了轉學的機會。
模型簡介:
一 。Siamese neural networks (SNN) 孿生網路
共享引數,表達一致

Representation module (R) :GloVe word embbedding+LSTM or CNN+full connentced
ii) Aggregation module (A) :negative absolute exponential distance
iii) Decision module (D) sigmoid+full connentced
二。Gradient Tree Boosting (GTB)
聚合弱的預測器來生成強的預測器,用到40多個特徵來反映語義與結構的相似性,包括
TF-IDF distance, word movers distance, graph based structural question similarity distances, Word2Vec-based distances , and Doc2Vec-based distances
三 。INIT Transfer Learning
具體模型沒有給出。
實驗結果及分析:

1.通用領域效果比專業領域要好,可能和資料量有關
2.XGBoost比深度學習的效果好,融合的特徵多的那效果也能超過深度學習。
3.遷移學習的效果提升不明顯,甚至可能下降,說明遷移性不強。