1. 程式人生 > >中文分詞一席談之難點分析

中文分詞一席談之難點分析

什麼是分詞?
          分詞就是利用計算機識別出文本中詞彙的過程。比如句子“內塔尼亞胡說的確實在理”

分詞作用
         網際網路絕大多數應用都需要分詞,典型應用例項 
         漢字處理:拼音輸入法、手寫識別、簡繁轉換 … 
         資訊檢索:Google 、Baidu …
         內容分析:機器翻譯、廣告推薦、內容監控 …
         語音處理:語音識別、語音合成 … 
          … 
分詞難點 
         歧義無處不在
 
         交叉歧義(多種切分交織在一起)  
         內塔內亞胡說的/確實/在理 
         組合歧義(不同情況下切分不同) 
         這個人/手
上有痣 
         我們公司人手  
        真歧義(幾種切分都可以) 
        乒乓球拍/賣/完了
        乒乓球/拍賣/完了 
       
新詞層出不窮
        人名、地名、機構名
        劉德華 長阪坡 耀華路
        網名
        你是我的誰 旺仔小饅頭
       公司名、產品名
        摩托羅拉  谷歌  愛國者 騰訊  網易   新浪 諾基亞C5  尼康D700
 
        普通詞與新詞互用 
        高明表演真好(演員)/他的表演很高明 
        汪洋(廣東省長)到深圳檢查工作/洞庭湖一片汪洋 
        普通詞與新詞交織在一起 
        克林頓對內
塔尼亞胡說 
         胡錦濤聽取龔學平等同志的彙報
   
         需求多種多樣 
         切分速度:搜尋引擎VS單機版語音合成 
         結果呈現: 
                  切分粒度要求不同:機器翻譯VS搜尋引擎 
                  分詞重點要求不同:語音合成VS搜尋引擎 
                   唯一結果VS多結果:語音合成VS搜尋引擎 
          新詞敏感度不同:語音合成VS搜尋引擎 
          處理物件:書面文字(規範/非規範)VS口語文字 
          硬體平臺:嵌入式VS單機版VS伺服器版