《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記(大一下)
現象:因特網資源呈現多語言化和跨語言的特點,給普通用戶獲取非母語網絡信息造成障礙。
目標:整合多語言傾向信息,以通用的數據形式讓用戶了解多語言數據對某個對象的評價。
針對跨語言情感傾向分類任務,提出兩種跨語言情感傾向分析策略:
- 半監督框架的跨言情感傾向判別方法(雙語協同文本情感傾向判別框架)
關鍵:跨語言一致文本
材料:源語言數據集和目標語言數據集
目標:利用源語言數據集的情感傾向標簽,預測目標語言數據集中未標註樣本點的情感傾向標簽,即學習跨語言函數。
方法:將情感傾向一致樣本點作為載體,采用半監督學習方法在源語言和目標語言候選特征的並集中,建立情感傾向一致的表示空間。
具體步驟:
(1)源語言和自動翻譯後的目標語言分別采用Fisher特征選擇判別模型得到高度置信樣本。
(2)選擇高度置信樣本點(源語言和目標語言共享的情感傾向觀點詞,同時包含部分目標語言常使用而源語言較少使用的情感傾向觀點詞)。
(3)將高度置信樣本點(目標語言上的情感傾向觀點詞)逐步加入訓練數據集中。
(4)將源語言和目標語言的訓練數據集通過Fisher特征選擇判別模型得出兩種語言的判別結果。
(5)融合兩種語言判別結果時,需要平衡目標語言和源語言判別結果的置信度。采用置信度加權疊加方式計算雙語融合置信度L(x)(若L(x))=0。則x為正面情感傾向,反之為負面情感傾向)
2.跨語言特征混合文本情感傾向判別框架
關鍵:跨語言混合概念空間
材料:帶有情感傾向標註的源語言訓練數據集、未標註目標語言數據集
目標:用跨語言情感傾向特征混合壓縮的思想,提取跨語言情感傾向特征。
方法:將數據集映射到概念空間中,從而疊加原始特征信息,解決共享特征和樣本點稀少的問題
具體步驟:
(1)源語言和目標語言進行數據處理後,得到一致語言訓練數據。
(2)主成分分析(PCA):訓練數據經過PCA跨語言特征混合後,選擇一定數量的主成分作為混合特征空間,其維度遠小於輸入原始維度。 (減小了數據在高維空間中的稀疏性)。
(3)在混合正交表示空間後,得到混合空間訓練數據和混合空間目標數據。
(4)源語的混合空間訓練數據運用三種機器學習後,得到判別模型。
(5)用判別模型對混合空間目標數據進行傾向判別,得出最後的判別結果。
3.融合兩種框架判別結果,給出文本整體情感傾向性(跨語言文本情感傾向判別有效)
具體步驟:
(1)數據預處理:語言翻譯、去停用詞、詞語校準(對齊誤拼單詞)
(2)分別采用兩種跨語言傾向判別框架,得到特征混合策略結果(result1、result2)
(3)通過樣本整體置信度計算公式,將兩種策略最終判別結果融合。
4.結論與展望
(1)今後應從跨語言情感傾向概念空間結構以及多種語言到情感傾向概念空間的變換結構繼續深入開展研究。
(2)對於多策略方法融合而言,有效的融合集成需要基分類器具有有效性和雞分類器之間必要的差異性。
《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記(大一下)