【讀書筆記】《Python自然語言處理》第1章語言處理與Python

阿新 • • 發佈：2018-12-28

1.1 語言計算：文字和詞彙

入門

nltk下載地址使用pip安裝
>>>import nltk 檢驗是否成功。
>>>nltk.download() 選擇語料下載

nltk相關語料

使用python直譯器載入book模組中的條目
>>>from nltk.book import *

nltk.book

輸入名字如 >>>text1 即可找到相應的文字

搜尋文字

搜尋文字中的某個詞 >>>text1.concordance("monstrous")

搜尋文字中的某個詞

搜尋文字中與指定詞相似的詞 >>>text1.similar("monstrous")

相似的詞

研究同一文字中的兩個及以上的詞之間的關係 >>>text2.common_contexts(["monstrous","very"])
(可以用來考察兩次的用法是否相似)

兩詞關係

根據幾個詞在文字中出現位置的離散圖觀察單詞分佈
>>>text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])

詞分佈

生成文字 >>>text3.generate()（書中nltk2.0.1版本可用，但是新版本不再支援）

這裡寫圖片描述

計數詞彙

使用len函式獲取文字長度（包括單詞及標點） >>>len(text3)

獲取無重複的詞彙表 >>>sorted(set(text3))

計算文字詞彙豐富度

>>>from __feature__ import division
>>>len(text3) / len(set(text3))

特定單詞計數 >>>text3.count("smote")

1.2 近觀Python：將文本當做詞連結串列

主要介紹Python中連結串列的相關操作。（略）

1.3 計算語言：簡單的統計

頻率分佈

統計文字中詞的詞頻，降序排列儲存至map中

>>>fdist1  
= FreqDist(text1)
>>>vocabulary1 = fdist1.keys()
>>>vocabulary1[:50]

Top50詞頻視覺化 >>>fdist1.plot(50,cumulative=True)

檢視文字中只出現一次的詞 >>>fdist1.hapaxes()

細粒度選擇詞

找出文字中長度超過15的詞 :

>>>V = set(text1)
>>>long_words = [w for w in V if len(w) > 15]
>>>sorted(long_words)

這裡寫圖片描述

詞語搭配和雙連詞

提取文字詞彙中的詞對
>>>list(bigrams(['more', 'is', 'said', 'than', 'done']))
這裡寫圖片描述

collocations() 函式在已知單個詞的詞頻基礎上，找到出現頻繁的雙連詞
>>text4.collocations()
這裡寫圖片描述

計算其他東西

檢視文字中詞長的分佈

>>>fdist = FreqDist([len(w) for w in text1])
>>>fdist.keys()

這裡寫圖片描述
輸出結果表明text1中最長的詞是由20個字元組成。

>>>fdist.items()
這裡寫圖片描述

>>>fdist.max()
>>>fdist.freq(3)

這裡寫圖片描述
由結果可知，文字中長度為3的詞最頻繁，約佔20%。

Examples	Descriptions
`fdist = FreqDist(samples)`	建立包含給定樣本的頻率分佈
`fdist.inc(samples)`	增加樣本
`fdist['monstrous']`	計數給定樣本出現的次數
`fdist.freq('monstrous')`	給定樣本的頻率
`fdist.N()`	樣本總數
`fdist.keys()`	以頻率遞減順序排序的樣本連結
`for sample in fdist:`	以頻率遞減的順序遍歷樣本
`fdist.max()`	數值最大的樣本
`fdist.tabulate()`	繪製頻率分佈表
`fdist.plot()`	繪製頻率分佈圖
`fdist.plot(cumulative=True)`	繪製累積頻率分佈圖
`fdist1<fdist2`	測試樣本在fdist1中出現的頻率是否小於fdist2

1.4 回到Python：決策與控制

主要介紹for迴圈與條件語句（略）

1.5 自動理解自然語言

詞義消岐

指代消解 anaphora resolution

自動生成語言

這裡寫圖片描述

遺憾地發現在nltk3.2裡，書中的babelize_shell()這個服務也不再提供了。

人機對話系統

>>>import nltk
>>>nltk.chat.chatbots()

這裡寫圖片描述

文字的含義

【讀書筆記】《Maven實戰》第7章生命周期與插件

命令 ide ner 資源 clas res content 獨立 default 7.1什麽是生命周期軟件開發人員每天都在對項目進行清理、編譯、測試及部署，Maven生命周期是對所有構建過程進行抽象和統一，含項目的清理、初始化、編譯、測試、打包、集成測試、驗證、部署

【讀書筆記】關於《精通C#(第6版)》與《C#5.0圖解教程》中的一點矛盾的地方

志銘-2020年2月8日 03:32:03 先說明，這是一箇舊問題，很久很久以前大家就討論了，哈哈哈，而且先宣告這是一個很無聊的問題，

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

【讀書筆記】《R語言實戰》Day1

R中的資料集資料集的概念：資料集是由資料構成的一個矩形陣列。統計學家稱資料集的行為觀測，列為向量；資料庫分析師稱資料集的行為記錄，列為欄位；資料探勘/機器學習的研究者則稱其為示例和屬性。資料集包括資料結構、內容和資料型別。 R語言常用的資料結構包括標量、向量、陣列、資料框和列表，可以處理的

【讀書筆記】Go 語言初次接觸

日期：2018年10月10日 15點35分 - 16點17分地點：玉泉慧谷參考：一、記錄逛知乎看人提起 Go 語言，恰巧我又有點時間，Hello World 來一個。二、操作記錄安裝下載 go 的 Windows 安裝程式（版本：1.11.

【讀書筆記】iOS-截屏功能的實現。

ima under auto core cal ica dsm gef control 一。整個project文件。二，代碼 ViewController.m #import "ViewController.h" #import <Q

【讀書筆記】——終極算法

終極進行生物 nbsp 人工研究院支持向量機來源統計 Note1:網飛的推薦傾向於長尾 Note2: 符號學派：逆向演繹，從哲學、心理學、邏輯學尋求洞見——>逆向演繹連接學派：對大腦進行逆向分析，來源於神經科學和物理學——>反向傳播進化學派：在計

【讀書筆記】iOS-查看一個軟件ipa包的內容

技術 -s alt dsm clas rda 軟件選中 tun 一，打開itunes----->我的iPhone應用程序。二，右鍵點擊app---->在Finder中顯示---->出現下圖所看到的界面。

【讀書筆記】設計心理學2-如何管理復雜【一】

然而困難虛擬前行方式間接行為這就是找到最近在看一些書籍，感覺不寫一些筆記，效果不是特別明顯。出於這個目的，於是有了下面的讀書筆記文章。從《設計心理學2-如何管理復雜》開始寫吧。在看這本書之前，其實自己覺得各種事情只要肯學習，其實都是挺簡單的。但看了本書

【讀書筆記】計算機網絡1章：課程介紹、協議、分層

視頻打印 http dns 物理層 size cli 電子商務 ann 改變這是我在Coursera上的學習筆記。課程名稱為《Computer Networks》。出自University of Washington。因為計算機網絡才誕生不久

【讀書筆記】技術每天一點點--2017.08月

files .html pop 演進 lis 我們 ati 檢測讀書筆記本文地址：http://www.cnblogs.com/aiweixiao/p/7451352.html 本文提綱：概述每天進展 1.【遺留問題】　　1.1）【問

【讀書筆記】閱讀的危險

enter 忘記而是有趣人在很多新的 tex 下一個閱讀的危險　　我脫離我的極簡主義哲學最大的原因之一就是閱讀，確切地說，是閱讀他人在做什麽。我閱讀博文或者雜誌上的文章，上面寫了別人所做的一些有趣的事情：旅行，使用一種新型高效的系統，烤面包等。然後我也想去做那

【讀書筆記】計算機是如何跑起來的

tab 循環隊列 mac 消息傳遞 tracer 私鑰表示記錄一下書中每章我認為的要點。前言作者在前言闡述了一個道理，計算機基礎知識的牢固是深入學習和興趣來源的所在。劃分一個知識範圍-》基礎中的基礎的知識-》設定目標，這些知識可以做什麽第

【讀書筆記】沈默的大多數

style 都是證明幸福如果沒有個人 pan 由於　　人從來都不能從獲得某件令人幸福的物品而獲得幸福，獲得幸福一定是因為某個人做了令他感到幸福的事情。--羅素　　我不敢完全肯定這句話，因為我不能證明它的反面是錯的。正確的前提能推出正確的結論，而錯誤的前提什麽都

【讀書筆記】《Effective Java》——創建和銷毀對象

auth static 直接 cdr 也會 pattern cal next false Item 1. 考慮用靜態工廠方法替代構造器獲得一個類的實例時我們都會采取一個公有的構造器。Foo x = new Foo()；同時我們應該掌握另一種方法就是靜態工廠方法（st

【讀書筆記】The Swift Programming Language (Swift 4.0.3)

code any 是個重建之一 eric esc 傳值特定素材：Language Guide 初次接觸 Swift，建議先看下 A Swift Tour,否則思維轉換會很費力，容易卡死或鉆牛角尖。同樣是每一章只總結3個自己認為最重要的點。這樣挺好!強迫你去思考去取

【讀書筆記】周誌華《機器學習》第三版課後習題討<第一章-緒論>

樣本聲明同時 body 集合不管怎麽說單個 clas 機器雖然是緒論。。但是。。。真的有點難！不管怎麽說，一點點前進吧。。。聲明一下答案不一定正確，僅供參考，為本人的作答，希望大神們能多多指教~ 1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本

【讀書筆記】讀《活著》有感

需要有感 size 作者家庭鬧鐘宿舍出版變化一、書籍介紹書名：《活著》作者：余華出版社：作家出版社二、正文　　人是為了活著本身而活著的，而不是為了活著之外的任何事物所活著。—— 余華，中文序。　　前天早上，我拿到了《活著》，比我想象中要

【讀書筆記】讀《重構改善既有代碼的設計》有感

表達感悟 quic -s 根據 bsp 關註計算有感一、書籍介紹　　書名：《重構改善既有代碼的設計》作者：[美]Martun Fowler 譯者：熊節出版社：人民郵電出版社二、背景　　深知自己的代碼水平，但自己又有一點代碼潔癖，看不慣的

【讀書筆記】構建之法（CH7~CH8）

計劃 isp 數量 round 體驗讀書 alert com 人力 MSF九大原則： 1. 推動信息共享與溝通:“諧”，Alert 2. 為共同的遠景而工作:目標明確—用戶/老板 3. 充分授權和信任: 4. 各司其職，對項目共同負責: 5. 交付增量的價值: 6. 保持

【讀書筆記】《Python自然語言處理》第1章 語言處理與Python

1.1 語言計算：文字和詞彙

入門

搜尋文字

計數詞彙

1.2 近觀Python：將文本當做詞連結串列

1.3 計算語言：簡單的統計

頻率分佈

細粒度選擇詞

詞語搭配和雙連詞

計算其他東西

1.4 回到Python：決策與控制

1.5 自動理解自然語言

詞義消岐

指代消解 anaphora resolution

自動生成語言

人機對話系統

文字的含義

相關推薦

【讀書筆記】《Python自然語言處理》第1章語言處理與Python