【NLP】大資料之行,始於足下:談談語料庫知多少
作者:白寧超
2016年7月20日13:47:51
摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足夠大就是大資料了?是不是資料足夠多就構成語料庫了?往往一個模型好壞跟訓練資料或者檢驗資料的語料庫息息相關。本文筆者帶你走進語料庫的世界,在隨後模型構建過程避免一些語料注意事項,大大提升模型效率。(本文原創,轉載請註明出處:大資料之行,始於足下:談談語料庫知多少。)
1 語料庫語言學
- 大多數學者普遍認為:語言學的研究必須基於語言事實的基礎,必須詳盡的大量的佔有材料,才有可能在理論上得出比較可靠的結論。
- 語料庫語言學:傳統語言材料的蒐集整理和加工完全以手工進行,費時費力,直到計算機出現並隨之計算能力強大之後,原先手工的工作開始轉向計算機去做,後來逐漸的方法完善中,提出一些初步的理論,形成了語料學這樣一門語言學與電腦科學交叉的學科。
- 語料庫語言學的研究範疇:主要研究機器可讀自然語言文字的採集、儲存、檢索、統計、語法標註、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞彙研究、詞語搭配研究、詞典編制、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解、機器翻譯等。
2 建立語料庫的意義
語料庫作為一個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被計算機程式檢索的、具有一定規模的語料的集合。本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用的總體。
3 語料庫研究的一些原則問題
3.1 語料庫劃分與種類
① 時間劃分:歷時語料庫和共時語料庫。
② 加工深度劃分:標註語料庫和非標註語料庫
③ 結構劃分:平衡結構語料庫和自然隨機結構語料庫
④ 表達形式劃分:口語語料庫和文字語料庫
⑤ 語種劃分:單語種語料庫和多語種語料庫(可比語料庫和平行語料庫)
⑥ 動態更新程度劃分:參考語料庫和監控語料庫
3.2 構建語料庫的原則
語料庫應該具有代表性、結構性、平衡性、規模需求並制定語料的元資料規範,各個原則具體介紹如下:
① 代表性:在應用領域中,不是根據量而劃分是否是語料庫,而是在一定的抽樣框架範圍內採集而來的,並且在特定的抽樣框架內做到代表性和普遍性。
② 結構性:有目的的收集語料的集合,必須以電子形式存在,計算機可讀的語料集合結構性體現在語料庫中語料記錄的程式碼,元資料項、資料型別、資料寬度、取值範圍、完整性約束。
③ 平衡性:主要體現在平緩因子:學科、年代、文體、地域、登載語料的媒體、使用者的年齡、性別、文化背景、閱歷、預料用途(私信/廣告等),根據實際情況選擇其中一個或者幾個重要的指標作為平衡因子,最常見的平衡因子有學科、年代、文體、地域等。
④ 規模性:大規模的語料對語言研究特別是對自然語言研究處理很有用的,但是隨著語料庫的增大,垃圾語料越來越多,語料達到一定規模以後,語料庫功能不能隨之增長,語料庫規模應根據實際情況而定。
⑤ 元資料:元資料對於研究語料庫有著重要的意義,我們可以通過元資料瞭解語料的時間、地域、作者、文字資訊等;還可以構建不同的子語料庫;除此外,還可以對不同的子語料對比;另外還可以記錄語料知識版權、加工資訊、管理資訊等。
注意:漢語詞與詞之間沒有空隙,不便於計算機處理,一般需要進行切詞和詞性標註。
4 語料標註的優缺點
① 優點: 研究方便。可重用、功能多樣性、分析清晰。
② 缺點: 語料不客觀(手工標註準確率高而一致性差,自動或者半自動標註一致性高而準確率差)、標註不一致、準確率低
總之,目前語料庫語言學主要研究機器可讀自然文字的採集、儲存、檢索、統計、自動切詞、詞性標註、語義標註等。
5 參考文獻
【1】 資料探勘概念與技術(364--386) 韓家煒
【2】 自然語言處理簡明教程 馮志偉 著
【3】 統計自然語言處理基礎 (166—169) 宛春法等譯
6 自然語言相關係列文章
【自然語言處理:馬爾可夫模型(一)】:
【自然語言處理:談談學習模型的評估(一)】:
【自然語言處理:談談學習模型的評估(三)】:
【自然語言處理:談談學習模型的評估(四)】:
7 語料庫
宣告:關於此文各個篇章,本人採取梳理扼要,順暢通明的寫作手法。系統閱讀相關書目和資料總結梳理而成,旨在技術分享,知識沉澱。在此感謝原著無私的將其匯聚成書,才得以引薦學習之用。其次,本人水平有限,權作知識理解積累之用,難免主觀理解不當,造成讀者不便,基於此類情況,望讀者留言反饋,便於及時更正。本文原創,轉載請註明出處:大資料之行,始於足下:談談語料庫知多少。
相關推薦
【NLP】大資料之行,始於足下:談談語料庫知多少
作者:白寧超 2016年7月20日13:47:51 摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足
0基礎【轉行】大資料,如何才能月薪五萬
目前大資料行業異常火爆,不少人都對大資料充滿了興趣,其中有大部分人都是之前沒有接觸過計算機技術的,對程式語言也不太瞭解,那是不是這部分零基礎的朋友就學不了大資料了呢?答案當然是否定的。 大資料學習雖然並不簡單,但也並不是什麼高深莫測,難以駕馭的技術,只要肯努力,零基礎的朋友也是完全可以掌握大資料,成功走上職
【原創】大資料基礎之Spark(4)RDD原理及程式碼解析
一 簡介 spark核心是RDD,官方文件地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重點是可容錯,可並行處理 Spark r
【原創】大資料基礎之Spark(5)Shuffle實現原理及程式碼解析
一 簡介 Shuffle,簡而言之,就是對資料進行重新分割槽,其中會涉及大量的網路io和磁碟io,為什麼需要shuffle,以詞頻統計reduceByKey過程為例, serverA:partition1: (hello, 1), (word, 1)serverB:partition2: (hell
【shiter編寫程式的藝術】大資料生態圈,計算機視覺,機器學習,高階技術的愛好者,話不多說,上程式碼!!!
公眾號: 老王和他的IT界朋友們 歡迎投稿: [email protected] QQ交流群: 593683975 QQ群提供技術交流,CSDN資源,百度文庫等資源共享 加群問題:拋硬幣正面上的期望? 我們想用一段音樂,幾張圖片, 些
【原創】大資料基礎之Hive(1)Hive SQL執行過程
hive 2.1 hive執行sql有兩種方式: 執行hive命令,又細分為hive -e,hive -f,hive互動式; 執行beeline命令,beeline會連線遠端thrift server; 下面分別看這些場景下sql是怎樣被執行的: 1 hive命令 啟動
【原創】大資料基礎之Spark(6)rdd sort實現原理
spark 2.1.1 spark中可以通過RDD.sortBy來對分散式資料進行排序,具體是如何實現的?來看程式碼: org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function.
【原創】大資料基礎之Spark(7)spark讀取檔案split過程(即RDD分割槽數量)
spark 2.1.1 spark初始化rdd的時候,需要讀取檔案,通常是hdfs檔案,在讀檔案的時候可以指定最小partition數量,這裡只是建議的數量,實際可能比這個要大(比如檔案特別多或者特別大時),也可能比這個要小(比如檔案只有一個而且很小時),如果沒有指定最小partition數量,初始化完成的
【fifan的專欄】夫君子之行,靜以修身,儉以養德。非淡泊無以明志,非寧靜無以致遠。夫學須靜也,才須學也,非學無以廣才,非志無以成學。淫慢則不能勵精,險躁則不能治性。年與時馳,意與日去,遂成枯落,多不接世,悲守窮廬,將復何及!
夫君子之行,靜以修身,儉以養德。非淡泊無以明志,非寧靜無以致遠。夫學須靜也,才須學也,非學無以廣才,非志無以成學。淫慢則不能勵精,險躁則不能治性。年與時馳,意與日去,遂成枯落,多不接世,悲守窮廬,將復...
【iOS】音訊播放之AVAudioPlayer,AVPlayer,AVQueuePlayer
前言 在婚語APP中,分別使用了AVAudioPlayer,AVPlayer,AVQueuePlayer來實現音訊播放功能,下面以婚語的實際需求分別介紹它們的使用方法和區別。 需求1 檔期備忘:使用者新建檔期記錄時,可以進行錄音備忘,錄音完成後可直接播放,儲存檔期時將錄音檔案上傳
【揭祕】大資料程式設計師這9大行業上班最賺錢!
總是聽說大資料就業前景最好,那麼大資料學完後到底做啥呢,應該把自己放在哪個位置最合適。 在大資料成為趨勢,成為國家戰略的今天,如何最大限度發揮大資料的價值成為人們思考的問題。無論是對於網際網路企業、電信運營商還是數量眾多的初創企業而言,大資料的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶佔市場,贏得發展
【乾貨】大資料招聘官就業指導
大資料招聘官權威“就業乾貨” 本著堅決對大家負責到底的態度,我們邀請了某知名網際網路上市公的司資料分析線招聘負責人,給大家送上權威的大資料就業指南。 First & 平均月薪12K
【 分類 】- 大資料
個人簡介 如果對測試比較感興趣的可以加QQ群:320542475! 如果你願意,我們可以聊聊測試的那點事,相互學習、互相成長,我相信只要不斷吸取自己所需營養,即使出生不那麼光彩,在未來依然會光芒萬丈,只是在前進的路上荊棘多了一點而已、、、
【 專欄 】- 大資料學習筆記
wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------
【摘錄】大資料探勘與知識發現的應用領域
應用 資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品
【精華】大資料在營銷中的6大優勢
導讀大資料正在重塑人們所知道的業務。資料科學為大多數現代公司的決策過程奠定了基礎,這正是2017
0基礎【轉行】大資料
開發十年,就只剩下這套架構體系了! >>>
【Android】開發優化之——調優工具:TrackView,Method Profiling
TraceView介面資訊介紹 TraceView介面包括時間面板和方法面板 (1) 時間面板(Timeline Panel) 時間面板展示了每個執行緒的執行情況,其中的[1]main即為ui主執行緒。 移動到某個位置可以檢視該點對應的方法的執行資訊,點選方法面板則會選中相應的方法。 可以左鍵按住不放選中區域
【8】機器學習之屠龍寶劍:GBDT
談完資料結構中的樹(詳情見參照之前博文《資料結構中各種樹》),我們來談一談機器學習演算法中的各種樹形演算法,包括ID3、C4.5、CART以及基於整合思想的樹模型Random Forest和GBDT。本文對各類樹形演算法的基本思想進行了簡單的介紹,重點談一談被
【轉】《CMake實踐》筆記三:構建靜態庫(.a) 與 動態庫(.so) 及 如何使用外部共享庫和標頭檔案
五、靜態庫與動態庫構建讀者雲,太能羅唆了,一個Hello World就折騰了兩個大節。OK,從本節開始,我們不再折騰Hello World了,我們來折騰Hello World的共享庫。本節的任務:1、建立一個靜態庫和動態庫,提供HelloFunc函式供其他程式程式設計使用,H