1. 程式人生 > >自然語言處理——文字分類平臺功能及UI設計

自然語言處理——文字分類平臺功能及UI設計

內容提要

  本文件介紹我開發的自然語言處理——文字處理實驗平臺的系統功能及UI設計。大量實驗都是基於本工具平臺完成。

歡迎頁面

在這裡插入圖片描述

語料分析

在這裡插入圖片描述
功能:簡單統計語料類別下樣本的分佈情況,用餅圖顯示比例。可進一步增加其他詳細的分析功能,如詞分佈分析,文件長度分析等。

語料處理

在這裡插入圖片描述
功能:

  • 通過選擇的原始語料目錄和分詞方法,點選“開始分詞”,分詞將輸出到制定路徑。右下側輸出資訊框會顯示完成資訊。
  • 通過分詞結果,將本語料樣本含有的詞進行詞典化,用於詞文件矩陣的生成。
  • 構建詞文件矩陣,通過點選“構建詞文件”按鈕,詞文件輸出到制定路徑。
  • “輸入文字”文字框可以輸入文字或開啟檔案,測試觀察各分詞器的分詞效果。

詞文件矩陣格式如下:
在這裡插入圖片描述

英文支援

在這裡插入圖片描述
功能:本系統能夠支援英文語料的處理。

特徵選擇

在這裡插入圖片描述
左側功能:根據需要構建測試用例,分為比例行和數量型。

在這裡插入圖片描述
右側功能:根據配置引數和詞文件矩陣進行特徵選擇,輸入資訊見輸出列印。支援libSVM格式輸出。
特徵選擇輸出形式如下圖:
在這裡插入圖片描述

工作空間配置

在這裡插入圖片描述
功能:

  • 配置測試用例路徑;
  • 配置測試方式;
  • 配置特徵選擇範圍;
  • 配置特徵選擇方式;
  • 配置特徵維度;
  • 配置測試型別;

單一分類測試

在這裡插入圖片描述
功能:測試單個分類器單次的分類結果,列印分類混淆矩陣。

分類器速度對比

在這裡插入圖片描述
功能:通過選擇“時間對比”測試,複選多種分類演算法,測試分類器時間效能。輸出結果如上圖所示。

分類演算法對比

在這裡插入圖片描述
功能:通過選擇“演算法對比”測試,複選多種分類演算法,測試各分類器精度與時間效能。輸出結果如上圖所示。

特徵選擇對比

在這裡插入圖片描述
功能:通過選擇“特徵比較”測試,複選多種特徵選擇演算法,測試各分類器在不同特徵選擇演算法上的精度。

NLV引數調優

在這裡插入圖片描述
功能:根據上圖,選擇引數,點選NLV演算法域內的開始,輸出結果如圖。

kNN引數調優

在這裡插入圖片描述
功能:根據上圖,選擇引數,點選kNN演算法域內的開始,輸出結果如圖,其他圖形結果請點選相應標籤檢視。

SVM引數調優

在這裡插入圖片描述
功能:根據上圖,選擇c-SVM引數,點選c-SVM演算法域內的開始,輸出結果如圖,其他圖形結果需點選相應標籤檢視。

演示效果

在這裡插入圖片描述

總結說明

  本平臺可根據不同的語料、不同的分詞工具、不同的特徵選擇方法,不同的分類方法和引數選擇,組成各種測試用例。

  版權宣告:個人原創,請勿抄襲,轉載引用請註明出處.