1. 程式人生 > >什麼是文字挖掘 ?

什麼是文字挖掘 ?

什麼是文字挖掘
  文字挖掘是抽取有效、新穎、有用、可理解的、散佈在文字檔案中的有價值知識,並且利用這些知識更好地組織資訊的過程。1998年底,國家重點研究發展規劃首批實施專案中明確指出,文字挖掘是“影象、語言、自然語言理解與知識挖掘”中的重要內容。
  文字挖掘是資訊挖掘的一個研究分支,用於基於文字資訊的知識發現。文字挖掘利用智慧演算法,如神經網路、基於案例的推理、可能性推理等,並結合文書處理技術,分析大量的非結構化文字源(如文件、電子表格、客戶電子郵件、問題查詢、網頁等),抽取或標記關鍵字概念、文字間的關係,並按照內容對文件進行分類,獲取有用的知識和資訊。
  文字挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括資料探勘技術、資訊抽取、資訊檢索,機器學習、自然語言處理、計算語言學、統計資料分析、線性幾何、概率理論甚至還有圖論。

文字挖掘技術的發展


  資料探勘技術本身就是當前資料技術發展的新領域,文字挖掘則發展歷史更短。傳統的資訊檢索技術對於海量資料的處理並不盡如人意,文字挖掘便日益重要起來,可見文字挖掘技術是從資訊抽取以及相關技術領域中慢慢演化而成的。
  隨著網路時代的到來,使用者可獲得的資訊包含了從技術資料、商業資訊到新聞報道、娛樂資訊等多種類別和形式的文件,構成了一個異常龐大的具有異構性、開放性特點的分散式資料庫,而這個資料庫中存放的是非結構化的文字資料。結合人工智慧研究領域中的自然語言理解和計算機語言學,從資料探勘中派生了兩類新興的資料探勘研究領域:網路挖掘和文字挖掘。
  網路挖掘側重於分析和挖掘網頁相關的資料,包括文字、連結結構和訪問統計(最終形成使用者網路導航)。一個網頁中包含了多種不同的資料型別,因此網路挖掘就包含了文字挖掘、資料庫中資料探勘、影象挖掘等。
  文字挖掘作為一個新的資料探勘領域,其目的在於把文字資訊轉化為人可利用的知識。

文字挖掘預處理

  文字挖掘是從資料探勘發展而來,但並不意味著簡單地將資料探勘技術運用到大量文字的集合上就可以實現文字挖掘,還需要做很多準備工作。文字挖掘的準備工作由文字收集、文字分析和特徵修剪三個步驟組成,見圖1。
  ◆ 文字收集
  需要挖掘的文字資料可能具有不同的型別,且分散在很多地方。需要尋找和檢索那些所有被認為可能與當前工作相關的文字。一般地,系統使用者都可以定義文字集,但是仍需要一個用來過濾相關文字的系統。
  ◆ 文字分析
  與資料庫中的結構化資料相比,文字具有有限的結構,或者根本就沒有結構;此外文件的內容是人類所使用的自然語言,計算機很難處理其語義。文字資料來源的這些特殊性使得現有的資料探勘技術無法直接應用於其上,需要對文字進行分析,抽取代表其特徵的元資料,這些特徵可以用結構化的形式儲存,作為文件的中間表示形式。其目的在於從文字中掃描並抽取所需要的事實
  ◆ 特徵修剪
  特徵修剪包括橫向選擇和縱向投影兩種方式。橫向選擇是指剔除噪聲文件以改進挖掘精度,或者在文件數量過多時僅選取一部分樣本以提高挖掘效率。縱向投影是指按照挖掘目標選取有用的特徵,通過特徵修剪,就可以得到代表文件集合的有效的、精簡的特徵子集,在此基礎上可以開展各種文件挖掘工作。

文字挖掘的關鍵技術

  經特徵修剪之後,可以開展資料文字挖掘工作。文字挖掘工作流程見圖2所示。從目前文字挖掘技術的研究和應用狀況來看,從語義的角度來實現文字挖掘的還很少,目前研究和應用最多的幾種文字挖掘技術有:文件聚類、文件分類和摘要抽取。
  ◆ 文件聚類
  首先,文件聚類可以發現與某文件相似的一批文件,幫助知識工作者發現相關知識;其次,文件聚類可以將一個文件聚類成若干個類,提供一種組織文件集合的方法;再次,文件聚類還可以生成分類器以對文件進行分類。
  文字挖掘中的聚類可用於:提供大規模文件集內容的總括;識別隱藏的文件間的相似度;減輕瀏覽相關、相似資訊的過程。
  聚類方法通常有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰參照聚類法、分級聚類法、基於概念的文字聚類等。
  ◆ 文件分類
  分類和聚類的區別在於:分類是基於已有的分類體系表的,而聚類則沒有分類表,只是基於文件之間的相似度。
  由於分類體系表一般比較準確、科學地反映了某一個領域的劃分情況,所以在資訊系統中使用分類的方法,能夠讓使用者手工遍歷一個等級分類體系來找到自己需要的資訊,達到發現知識的目的,這對於使用者剛開始接觸一個領域想了解其中的情況,或者使用者不能夠準確地表達自己的資訊需求時特別有用。傳統搜尋引擎中目錄式搜尋引擎屬於分類的範疇,但是許多目錄式搜尋引擎都採用人工分類的方法,不僅工作量巨大,而且準確度不高,大大限制了起作用的發揮。
  另外,使用者在檢索時往往能得到成千上萬篇文件,這讓他們在決定哪些是與自己需求相關時會遇到麻煩,如果系統能夠將檢索結果分門別類地呈現給使用者,則顯然會減少使用者分析檢索結果的工作量,這是自動分類的另一個重要應用。
  文件自動分類一般採用統計方法或機器學習來實現。常用的方法有:簡單貝葉斯分類法,矩陣變換法、K-最近鄰參照分類演算法以及支援向量機分類方法等。
  ◆ 自動文摘
  網際網路上的文字資訊、機構內部的文件及資料庫的內容都在成指數級的速度增長,使用者在檢索資訊的時候,可以得到成千上萬篇的返回結果,其中許多是與其資訊需求無關或關係不大的,如果要剔除這些文件,則必須閱讀完全文,這要求使用者付出很多勞動,而且效果不好。
  自動文摘能夠生成簡短的關於文件內容的指示性資訊,將文件的主要內容呈現給使用者,以決定是否要閱讀文件的原文,這樣能夠節省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文件中提取全面準確地反映該文件中心內容的簡單連貫的短文。
  自動文摘具有以下特點:(1)自動文摘應能將原文的主題思想或中心內容自動提取出來。(2)文摘應具有概況性、客觀性、可理解性和可讀性。(3)可適用於任意領域。
  按照生成文摘的句子來源,自動文摘方法可以分成兩類,一類是完全使用原文中的句子來生成文摘,另一類是可以自動生成句子來表達文件的內容。後者的功能更強大,但在實現的時候,自動生成句子是一個比較複雜的問題,經常出現產生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。

文字挖掘應用前景
  利用文字挖掘技術處理大量的文字資料,無疑將給企業帶來巨大的商業價值。因此,目前對於文字挖掘的需求非常強烈,文字挖掘技術應用前景廣闊。

知識連結
  文字挖掘系統的評估辦法
  評估文字挖掘系統是至關重要的,目前已有許多方法來衡量在這一領域的進展狀況,幾種比較公認的評估辦法和標準如下:
  ◆ 分類正確率:通過計算文字樣本與待分類文字的概率來得出分類正確率。
  ◆ 查準率:查準率是指正確分類的物件所佔物件集的大小,
  ◆ 查全率:查全率是指集合中所含指定類別的物件數佔實際目標類中物件數的比例。
  ◆ 支援度:支援度表示規則的頻度。
  ◆ 置信度:置信度表示規則的強度。

----------------------------------------------------------------------------------------------------------------------------------------------

案例:文字挖掘在互連閘道器鍵詞分析中的應用

沈浩老師以新浪體育國際足球新聞標題為例,生動的講述了文字挖掘在網際網路關鍵詞分析中的應用。

    在資料分析技術中,文字分析的使用一直是一個較少被涉及的領域,特別是有關中文文字的文字挖掘。

文字挖掘大致可由三部分組成:底層是文字資料探勘的基礎領域,包括機器學習、數理統計、自然語言處理;在此基礎上是文字資料探勘的基本技術,有五大類,包括文字資訊抽取、文字分類、文字聚類、文字資料壓縮、文字資料處理;在基本技術之上是兩個主要應用領域,包括資訊訪問和知識發現,資訊訪問包括資訊檢索、資訊瀏覽、資訊過濾、資訊報告,知識發現包括資料分析、資料預測。其中需要付出大量人力物力的是文字資訊的提取及內容分類,尤其對於中文來說不同領域不同行業的關鍵詞術語各不相同,因此,構建一個適用於不同行業的關鍵詞庫顯得尤為重要。

不過基於中文的文字挖掘也有非常多的使用,比如各大媒體的2011十大關鍵詞盤點。比如前段時間零點E-lab研究室所繪製的中國唐詩及宋詞的關鍵詞構成,非常的有趣,將古人詩歌的高頻或者說比較潮的詞彙都捕捉到了。並且採用網路分析圖的方法將各個關鍵詞之間的聯絡清楚的展現出來,甚至部分讀者能夠根據該網路圖自己推敲出一些經典的詩句。怎麼樣?能夠分辨出那張圖是分析唐詩的,哪張是宋詞麼?

言歸正傳,筆者也在處理有關文字分析的內容,正好藉此分享一下文字分析的方法。

正如前文所述,中文的文字挖掘集中在關鍵詞庫的建立,在沒有專門軟體的幫助下,使用“人工智慧”倒是一個權宜之計。而人為建立關鍵詞庫的要點就在於編碼,要求編碼人員對關鍵詞有相當的經驗及足夠的敏感度,如是多人編碼還需考慮到團隊的個性差異及分工協作等要素。

筆者選擇將新浪體育網站中國際足球版面的新聞標題作為研究物件(不選國內足球的原因你懂……),希望通過文字挖掘的方法以小見大的分析發現新聞編輯的個人特點及標題撰寫的“潛規則”。

首先,筆者選擇了201171日至20111220日的新聞標題作為研究物件,在這個時間段中包括了大型盃賽(美洲盃)、轉會期、日常聯賽等內容,應該說涵蓋了足球活動中可能出現的大多數新聞報導,共有25,598條新聞標題。

新聞大致分為三大類,即:圖片、文字、視訊。

經過整理,筆者共篩選了500多個關鍵詞,如:轉會、隊長、傳奇、名單、大將、贊、新星、對手、訓練、國腳、鋒霸、點球、VS、主場、天王等等。這些關鍵詞的篩選,筆者篩選關鍵詞的依據主要有以下幾點:

l與體育活動相關,可是場外或者場內

l屬於日常用語,不能造詞

l需要是通過詞彙,即具有普適性,比如像“貝克漢姆帶兒子逛街就不作為關鍵詞,因為其他球員出現類似情況的概率很低。

l儘可能多的找,然後整理。比如“小小羅”C是同一個人,但是筆者將其作為兩個關鍵詞。

廢話少說,下面就晒一下對這些詞的分析結果:

概述篇下面列出三大類新聞標題的關鍵詞排名,圖片類以“慶祝“、”訓練”、”進球”為代表;視訊類新聞以“進球”、”破門”、”梅西”為代表,主要和球場活動有關,而與前兩類有較大不同的是文字類新聞,排名靠前的分別是”梅西”、”宣佈”、”首發”、”C羅”、”官方”等,包含內容較多,並且縱觀整個文字新聞頁面,使用的高頻形容詞是最多的。

人物篇在排名前20的詞彙中共出現三個人物名稱:梅西”C穆帥。作為球員前兩人在圖片及視訊中佔了較大比重,而穆里尼奧是唯一躋身新聞關鍵詞前20的教練員。

技術篇在排名前20的詞彙中,涉及足球比賽描述的詞彙主要集中在視訊中,其次是圖片,而文字新聞中場外內容佔了較大篇幅。

寫作篇那麼,怎麼寫好新聞標題,或者怎樣寫出新浪體育的標題?為了解決這一問題,筆者將所有標題涉及的前100個新聞標題進行相關性的網路分析:

經過整理後如下,怎麼樣,可以彙總一條新聞標題麼?