1. 程式人生 > >【NLP】大資料之行,始於足下:談談語料庫知多少

【NLP】大資料之行,始於足下:談談語料庫知多少

作者:白寧超

2016年7月20日13:47:51

摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足夠大就是大資料了?是不是資料足夠多就構成語料庫了?往往一個模型好壞跟訓練資料或者檢驗資料的語料庫息息相關。本文筆者帶你走進語料庫的世界,在隨後模型構建過程避免一些語料注意事項,大大提升模型效率。(本文原創,轉載請註明出處大資料之行,始於足下:談談語料庫知多少。)

1 語料庫語言學

  1. 大多數學者普遍認為:語言學的研究必須基於語言事實的基礎,必須詳盡的大量的佔有材料,才有可能在理論上得出比較可靠的結論。
  2. 語料庫語言學:傳統語言材料的蒐集整理和加工完全以手工進行,費時費力,直到計算機出現並隨之計算能力強大之後,原先手工的工作開始轉向計算機去做,後來逐漸的方法完善中,提出一些初步的理論,形成了語料學這樣一門語言學與電腦科學交叉的學科。
  3. 語料庫語言學的研究範疇:主要研究機器可讀自然語言文字的採集、儲存、檢索、統計、語法標註、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞彙研究、詞語搭配研究、詞典編制、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解、機器翻譯等。

2  建立語料庫的意義

語料庫作為一個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被計算機程式檢索的、具有一定規模的語料的集合。本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用的總體。

3 語料庫研究的一些原則問題

3.1 語料庫劃分與種類

① 時間劃分:歷時語料庫和共時語料庫。

② 加工深度劃分:標註語料庫和非標註語料庫

③ 結構劃分:平衡結構語料庫和自然隨機結構語料庫

④ 表達形式劃分:口語語料庫和文字語料庫

⑤ 語種劃分:單語種語料庫和多語種語料庫(可比語料庫和平行語料庫)

⑥ 動態更新程度劃分:參考語料庫和監控語料庫

3.2 構建語料庫的原則

語料庫應該具有代表性、結構性、平衡性、規模需求並制定語料的元資料規範,各個原則具體介紹如下:

①   代表性:在應用領域中,不是根據量而劃分是否是語料庫,而是在一定的抽樣框架範圍內採集而來的,並且在特定的抽樣框架內做到代表性和普遍性。

②   結構性:有目的的收集語料的集合,必須以電子形式存在,計算機可讀的語料集合結構性體現在語料庫中語料記錄的程式碼,元資料項、資料型別、資料寬度、取值範圍、完整性約束。

③   平衡性:主要體現在平緩因子:學科、年代、文體、地域、登載語料的媒體、使用者的年齡、性別、文化背景、閱歷、預料用途(私信/廣告等),根據實際情況選擇其中一個或者幾個重要的指標作為平衡因子,最常見的平衡因子有學科、年代、文體、地域等。

④   規模性:大規模的語料對語言研究特別是對自然語言研究處理很有用的,但是隨著語料庫的增大,垃圾語料越來越多,語料達到一定規模以後,語料庫功能不能隨之增長,語料庫規模應根據實際情況而定。

⑤   元資料:元資料對於研究語料庫有著重要的意義,我們可以通過元資料瞭解語料的時間、地域、作者、文字資訊等;還可以構建不同的子語料庫;除此外,還可以對不同的子語料對比;另外還可以記錄語料知識版權、加工資訊、管理資訊等。

注意:漢語詞與詞之間沒有空隙,不便於計算機處理,一般需要進行切詞和詞性標註。

4 語料標註的優缺點

①   優點: 研究方便。可重用、功能多樣性、分析清晰。

②   缺點: 語料不客觀(手工標註準確率高而一致性差,自動或者半自動標註一致性高而準確率差)、標註不一致、準確率低

總之,目前語料庫語言學主要研究機器可讀自然文字的採集、儲存、檢索、統計、自動切詞、詞性標註、語義標註等。

5 參考文獻

【1】 資料探勘概念與技術(364--386) 韓家煒

【2】 自然語言處理簡明教程  馮志偉 著

【3】 統計自然語言處理基礎 (166—169) 宛春法等譯

6 自然語言相關係列文章

【自然語言處理:馬爾可夫模型(一)】:

【自然語言處理:談談學習模型的評估(一)】:

【自然語言處理:談談學習模型的評估(三)】:

【自然語言處理:談談學習模型的評估(四)】:

7 語料庫

宣告:關於此文各個篇章,本人採取梳理扼要,順暢通明的寫作手法。系統閱讀相關書目和資料總結梳理而成,旨在技術分享,知識沉澱。在此感謝原著無私的將其匯聚成書,才得以引薦學習之用。其次,本人水平有限,權作知識理解積累之用,難免主觀理解不當,造成讀者不便,基於此類情況,望讀者留言反饋,便於及時更正。本文原創,轉載請註明出處大資料之行,始於足下:談談語料庫知多少。

相關推薦

NLP資料始於足下談談語料多少

作者:白寧超 2016年7月20日13:47:51 摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足

0基礎轉行資料如何才能月薪五萬

目前大資料行業異常火爆,不少人都對大資料充滿了興趣,其中有大部分人都是之前沒有接觸過計算機技術的,對程式語言也不太瞭解,那是不是這部分零基礎的朋友就學不了大資料了呢?答案當然是否定的。 大資料學習雖然並不簡單,但也並不是什麼高深莫測,難以駕馭的技術,只要肯努力,零基礎的朋友也是完全可以掌握大資料,成功走上職

原創資料基礎Spark(4)RDD原理及程式碼解析

一 簡介 spark核心是RDD,官方文件地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重點是可容錯,可並行處理 Spark r

原創資料基礎Spark(5)Shuffle實現原理及程式碼解析

一 簡介 Shuffle,簡而言之,就是對資料進行重新分割槽,其中會涉及大量的網路io和磁碟io,為什麼需要shuffle,以詞頻統計reduceByKey過程為例, serverA:partition1: (hello, 1), (word, 1)serverB:partition2: (hell

shiter編寫程式的藝術資料生態圈計算機視覺機器學習高階技術的愛好者話不多說上程式碼!!!

公眾號:     老王和他的IT界朋友們 歡迎投稿:  [email protected] QQ交流群:  593683975 QQ群提供技術交流,CSDN資源,百度文庫等資源共享 加群問題:拋硬幣正面上的期望? 我們想用一段音樂,幾張圖片, 些

原創資料基礎Hive(1)Hive SQL執行過程

hive 2.1   hive執行sql有兩種方式: 執行hive命令,又細分為hive -e,hive -f,hive互動式; 執行beeline命令,beeline會連線遠端thrift server; 下面分別看這些場景下sql是怎樣被執行的: 1 hive命令 啟動

原創資料基礎Spark(6)rdd sort實現原理

spark 2.1.1 spark中可以通過RDD.sortBy來對分散式資料進行排序,具體是如何實現的?來看程式碼: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function.

原創資料基礎Spark(7)spark讀取檔案split過程(即RDD分割槽數量)

spark 2.1.1 spark初始化rdd的時候,需要讀取檔案,通常是hdfs檔案,在讀檔案的時候可以指定最小partition數量,這裡只是建議的數量,實際可能比這個要大(比如檔案特別多或者特別大時),也可能比這個要小(比如檔案只有一個而且很小時),如果沒有指定最小partition數量,初始化完成的

fifan的專欄夫君子之行,靜以修身儉以養德。非淡泊無以明志非寧靜無以致遠。夫學須靜也才須學也非學無以廣才非志無以成學。淫慢則不能勵精險躁則不能治性。年與時馳意與日去遂成枯落多不接世悲守窮廬將復何及!

夫君子之行,靜以修身,儉以養德。非淡泊無以明志,非寧靜無以致遠。夫學須靜也,才須學也,非學無以廣才,非志無以成學。淫慢則不能勵精,險躁則不能治性。年與時馳,意與日去,遂成枯落,多不接世,悲守窮廬,將復...

iOS音訊播放AVAudioPlayerAVPlayerAVQueuePlayer

前言 在婚語APP中,分別使用了AVAudioPlayer,AVPlayer,AVQueuePlayer來實現音訊播放功能,下面以婚語的實際需求分別介紹它們的使用方法和區別。 需求1 檔期備忘:使用者新建檔期記錄時,可以進行錄音備忘,錄音完成後可直接播放,儲存檔期時將錄音檔案上傳

揭祕資料程式設計師這9行業上班最賺錢!

總是聽說大資料就業前景最好,那麼大資料學完後到底做啥呢,應該把自己放在哪個位置最合適。 在大資料成為趨勢,成為國家戰略的今天,如何最大限度發揮大資料的價值成為人們思考的問題。無論是對於網際網路企業、電信運營商還是數量眾多的初創企業而言,大資料的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶佔市場,贏得發展

乾貨資料招聘官就業指導

大資料招聘官權威“就業乾貨”       本著堅決對大家負責到底的態度,我們邀請了某知名網際網路上市公的司資料分析線招聘負責人,給大家送上權威的大資料就業指南。 First &     平均月薪12K

分類 - 資料

個人簡介 如果對測試比較感興趣的可以加QQ群:320542475! 如果你願意,我們可以聊聊測試的那點事,相互學習、互相成長,我相信只要不斷吸取自己所需營養,即使出生不那麼光彩,在未來依然會光芒萬丈,只是在前進的路上荊棘多了一點而已、、、

專欄 - 資料學習筆記

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

摘錄資料探勘與知識發現的應用領域

應用 資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品

精華資料在營銷中的6優勢

導讀大資料正在重塑人們所知道的業務。資料科學為大多數現代公司的決策過程奠定了基礎,這正是2017

0基礎轉行資料

開發十年,就只剩下這套架構體系了! >>>   

Android開發優化——調優工具TrackView,Method Profiling

TraceView介面資訊介紹 TraceView介面包括時間面板和方法面板 (1) 時間面板(Timeline Panel) 時間面板展示了每個執行緒的執行情況,其中的[1]main即為ui主執行緒。 移動到某個位置可以檢視該點對應的方法的執行資訊,點選方法面板則會選中相應的方法。 可以左鍵按住不放選中區域

8機器學習屠龍寶劍GBDT

  談完資料結構中的樹(詳情見參照之前博文《資料結構中各種樹》),我們來談一談機器學習演算法中的各種樹形演算法,包括ID3、C4.5、CART以及基於整合思想的樹模型Random Forest和GBDT。本文對各類樹形演算法的基本思想進行了簡單的介紹,重點談一談被

《CMake實踐》筆記三構建靜態(.a) 與 動態(.so) 及 如何使用外部共享和標頭檔案

五、靜態庫與動態庫構建讀者雲,太能羅唆了,一個Hello World就折騰了兩個大節。OK,從本節開始,我們不再折騰Hello World了,我們來折騰Hello World的共享庫。本節的任務:1、建立一個靜態庫和動態庫,提供HelloFunc函式供其他程式程式設計使用,H