(一)NLP基礎知識
1、NLTK
一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的jieba處理庫
2、文字處理流程
3、分詞
英文用NLTK,中文用jieba等,比較難處理時候,可能得藉助正則表示式。
4、複雜的詞形
處理資料的時候可能需要變化詞形,分2中情況:
1)Inflection變化:不影響詞性
walk
2) derivation 引申:影響詞性
nation(n.)
5、詞形歸一化
1)Stemming詞幹提取:把不影響詞性的字尾去掉
walking
walked
(依舊是動詞)
2)Lemmatization詞形歸一:把各型別的詞變形,歸一
went歸一=go
are歸一=be
3)Lemma出現的問題(藉助詞性標註完成)
Went v.go的過去式 n.英文名:溫特
6、去除停用詞
中文有:的、地…
英文有:the 、this…
總結:文字預處理流水線
相關推薦
(一)NLP基礎知識
1、NLTK 一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的jieba處理庫 2、文字處理流程 3、分詞 英文用NLTK,中文用jieba等,比較難處理時候,可能得藉助正則表示式。 4、複雜的詞形 處理
CS231n(一):基礎知識
深度學習 highlight 自己 元組 .py [0 upper bsp python 給自己新挖個坑:開始刷cs231n深度學習。 看了一下導言的pdf,差缺補漏。 s = "hello" print s.capitalize() # 首字母大寫; prints "
tensorflow筆記(一)之基礎知識
輸入 gpu oat baidu nump 通過 img ubuntu下 能力 tensorflow筆記(一)之基礎知識 版權聲明:本文為博主原創文章,轉載請指明轉載地址 http://www.cnblogs.com/fydeblog/p/7399701.html 前言
JS筆記(一):基礎知識
bsp man function child 變量 file 使用 IE 單獨 (一) 標識符 標識符就是一個名字,在JS中,標識符用來對變量和函數命名,或者用做JS代碼中某些循環語句中的跳轉位置的標記。JS的標識符必須以字母、_或$符號開始,後續字符可以是字母、數字、_
Java編碼(一)——編碼基礎知識
在開發過程中我們往往會遇到很多中文亂碼的問題,而要解決這個問題無非抓住編碼和解碼的一致性問題,但理解其背後的原因及定位問題,還需要了解現有的編碼基礎知識。 一、專業詞彙 1.1 編碼與解碼 資料在計算機中儲存格式都是用0和1表示的。編碼是資訊從一種形式或格式轉換為另一種形式的過程,通俗點講就是就是將我們
TCP/IP協議(一)網路基礎知識 網路七層協議
參考書籍為《圖解tcp/ip》-第五版。這篇隨筆,主要內容還是TCP/IP所必備的基礎知識,包括計算機與網路發展的歷史及標準化過程(簡述)、OSI參考模型、網路概念的本質、網路構建的裝置等 下面是協議層從底層至頂層的一個模型圖: &nb
轉:張量分解(一):基礎知識
[原地址]https://blog.csdn.net/Flying_sfeng/article/details/80817904 前段時間在組裡分享了張量分解相關的知識,現在想把它整理成一個系列,供有需要的同學閱讀。 下文根據Tensor Decomposition
Spring MVC學習記錄(一)——網站基礎知識(1)
Spring MVC學習之——網路架構及演變過程 1.軟體的三大型別:單機型別、CS型別、BS型別。 單機型別:曾經的主要軟體型別,不聯網,實現電腦的基本功能,如打字、畫圖。 CS型別:單機之後為了統一管理軟體的資料,產生了客戶端和伺服器端,客戶端管理業務,伺服器端管理資料
Python音訊處理(一)音訊基礎知識
1.聲音音訊基礎知識 (1)聲音是由震動產生,表現為波的形式。波有頻率,振幅等引數。對於聲波而言:頻率越大,音調越高,反之越低。振幅越大,聲音越大,反之越小。 (2)取樣率,幀率:波是連續(無窮)的,計算機儲存是離散(有限)的。要想用有限儲存無限,幾乎不可能。因此,要每隔一段時間對波進行一
(一)網路基礎知識--圖解TCP/IP
計算機網路,根據其規模分為WAN(Wide Area Network,廣域網)和LAN(LocaL Area Network,區域網)。 一、計算機與網路發展的7個階段 批處理(Batch Processing)系統 20世紀50年代。 分時系統(Time Sh
Linux 下wifi 驅動開發(一)—— WiFi基礎知識解析
一、WiFi相關基礎概念 1、什麼是wifi 我們看一下百度百科是如何定義的: Wi-Fi是一種可以將個人電腦、手持裝置(如pad、手機)等終端以無線方式互相連線的技術,事實上它是一個高頻無線電訊號。[1] 無線保真是一個無線網路通訊技術的品牌
《View的事件體系》(一)View基礎知識
雖然說View不是Android四大元件,但他的作用和重要性並不次於四大元件。那到底什麼才是View?View在Android中是所有控制元件的基類,不管簡單的Button還是複雜的ListView,
安裝centOS 7雙系統(一)——Linux基礎知識儲備
本文主要記錄如何安裝centOS 7雙系統,便於我以後重灌系統參考,同時希望能幫助到其他人。 基礎知識部分內容主要來源於edX上的LinuxFoundationX。 小白常問的關於Linux的幾個問題 Linux,centOS,Ubuntu等名次是什
資料探勘乾貨總結(一)--NLP基礎
本文共計1463字,預計閱讀時長八分鐘 NLP-基礎和中文分詞 一、本質 NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術 二、NLP用來解決什麼問題 語音合成(Speech synth
記憶體管理(一) ptmalloc基礎知識
Top chunk對於主分配區和非主分配區的分配方式是不一樣的。對於非主分配區,會預先從mmap區銀河一塊較大記憶體模擬sub_heap,通過管理sub_heap來響應使用者請求。因為記憶體是按地址從低向高進行分配的,在空閒記憶體的最高處一定會存在著一塊空閒的chunk,叫做top chunk。當b
Tensorflow學習筆記(一):基礎知識
博主準備開始學習Tensorflow,將自己學到的東西總結出來,既能夠加深記憶,並且便於複習,如果能夠幫助到別人那更是再好不過了。 隨著深度學習的快速發展,深度學習工具也有很多。主流的深度學習框架包括Tensorflow,Caffe,Theano,Torch等
小白nlp入門基礎(一)--nlp簡介
nlp學習筆記一 編者:楊柳依依 日期:2018年9月25日 隨同公司的培訓,對nlp有了初步的理解,小白整理後的筆記如下: 自然語言的發展 語言隨社會一同發展,出現 一詞多義:蘋果(水果),蘋果(喬布斯公司) 多詞一義:北京市,北京 簡略詞、縮寫詞:安徽,徽 新
web測試基礎知識(一)web基礎
web測試的價值: a、挖掘測試深度,提高測試價值 客戶端/瀏覽器----應用伺服器----資料庫伺服器 資料從客戶端/瀏覽器接收,經過http協議、tcp/ip協議傳輸,來到應用伺服器,最後到達資料庫,前面我們分析過介面的輸入域,伺服器資料庫的後臺,但是我們沒有去關心
前端入門基礎知識大全(一)-CSS基礎(1)
個人學習筆記,僅供想入前端大門小夥伴學習 一、什麼是CSS Cascading Style Sheets : 樣式表 CSS用於HTML元素的樣式的定義 能夠實現內容(HTML頁面元素) 與 表現(CSS展示效果)相分離 能夠提升程式碼的可重用性 和 可
Windows API程式設計(一)最基礎的知識介紹:Windows程式設計基礎
主要內容簡介: 1. Windows 程式設計基礎:開發環境和開發過程。 2. Windows事件驅動模型和訊息機制。 3. Windows的資源:圖示、游標、選單、點陣圖等。 4. Windows繪圖:圖形和文字的顯示。 5. 對話方塊和控制元件。 6. 靜態庫和動態庫。