Python資料分析讀書筆記

阿新 • • 發佈：2019-01-17

其實就是nltk使用說明書

>>> import nltk
>>> nltk.download()
>>> from nltk.book import *

text1.concordance(“monstrous”)

text1.similar(“monstrous”) 。還有哪些詞出現在相似的上下文中？

函式common_contexts允許我們研究兩個或兩個以上的詞共同的上下文，如monstro
us和very。我們必須用方括號和圓括號把這些詞括起來，中間用逗號分割。

text4.dispersion_plot([“citizens”, “democracy”, “freedom”, “duties”, “America”])
以判斷詞在文字中的位置：從文字開頭算起在它前面有多少詞。這個位置資訊
可以用離散圖表示。每一個豎線代表一個單詞，每一行代表整個文字

使用
函式len 獲取長度

：set(text3)獲得text3 的詞彙表
用sorted()包裹起Python 表示式set(text3)��，我們得到一個詞彙項的排序表，
len(text3) / len(set(text3)) len(text3) / len(set(text3))多少次

text3.count(“smote”)　。計數一個詞在文字中出現的次

定義一個python函式來重複執行
python儲存句子的方法 list
sentence1.append(“word”) z 追加
text4[173] 索引 text4.index(‘awaken’) text5[16715:16735] ，m:n 表示元素m…n-1 索引從零開始

我們可以把詞用連結串列連線起來組成單個字串，或者把字串分割成一個連結串列，如下面
所示：

>>> ' '.join(['Monty', 'Python'])
'Monty Python'
>>> 'Monty Python'.split()
['Monty', 'Python']

使用FreqDist 尋找《白鯨記》中最常見的50 個詞。嘗試下面的例子，然
後閱讀接下來的解釋。

>>> fdist1 = FreqDist(text1) ��
>>> fdist1 ��
<FreqDist with 
 260819 outcomes>
>>> vocabulary1 = fdist1.keys() ��
>>> vocabulary1[:50] ④
[',', 'the', '.', 'of', 'and', 'a', 'to', ';', 'in', 'that', "'", '-','his', 'it', 'I', 's', 'is', 'he', 'with', 'was',
'as', '"', 'all', 'for','this', '!', 'at', 'by', 'but', 'not', '--', 'him', 'from', 'be', 'on','so', 'whale', 'one',
'you', 'had', 'have', 'there', 'But', 'or', 'were','now', 'which', '?', 'me', 'like']
>>> fdist1['whale']
906
>>>

fdist1.hapaxes() 只出現過一次的詞語

找出文字詞彙表長度中超過15 個字元的詞

 >>> V = set(text1)
>>> long_words = [w for w in V if len(w) > 15] 表示在V中 長度大於15的詞的集合
>>> sorted(long_words)

是聊天語料庫中所有長度超過
7 個字元出現次數超過7 次的詞：

>>> fdist5 = FreqDist(text5)
>>> sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7])

！中文先分詞（e.g. 結巴分詞）然後在用nltk來處理
分詞包分詞-> 文字變成長陣列->匹配詞典？-> nltk統計詞頻找出頻率最高的那些詞
Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
由於處理的一般為txt 文件，所以最簡單的方法，是把txt 文件另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode(‘utf8’)），輸出結果回txt 的時候再編碼成utf8（直接用str() 函式就可以了）

Jieba：可以用來做分詞，詞性標註，TextRank https://github.com/fxsjy/jieba
HanLP：分詞，命名實體識別，依存句法分析，還有FudanNLP，NLPIR
我們使用的是ansj分詞，fnlp句法分析，用logistic做情感分類。以前也用過stanford的分詞和分析，但是結果還是fnlp效果好。NLTK確實不怎麼好用

collocations() 尋找雙連詞搭配

fdist = FreqDist([len(w) for w in text1]) 文字中詞長出現頻率
fdist.keys() fdist.itemss

len(set([word.lower() for word in text1 if word.isalpha()]))
16948 忽略大小寫和數字標點的統計

爬蟲　

你並不清楚對方是如何識別你的爬蟲，因此只能使用一些主要的偽裝技術來進行推測，將Agent欄位設定為一組主流瀏覽器的欄位，另外Referer欄位設定為空或設定為首頁地址試試！我估計對方未必是識別出你是爬蟲，否則直接中斷連線得了，可能是爬到有訪問控制保護的頁面了!

Python資料分析讀書筆記

爬蟲

Python資料分析讀書筆記

《python資料分析讀書筆記》--- 資料探索(一)

Numpy基礎 --陣列和向量計算利用Python進行資料分析讀書筆記

Python資料分析學習筆記（1）numpy模組基礎入門

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

精益資料分析讀書筆記——第三章-你把生命獻給誰

精益資料分析讀書筆記——第四章-以資料為嚮導與通過資料獲取資訊

精益資料分析讀書筆記——第五章-資料分析框架

Python資料分析學習筆記——DataFrame(還在更新中)

Numpy入門——Python資料分析mooc筆記

python資料分析學習筆記七

python 資料分析學習筆記（第三章）

學習Python資料分析隨手筆記【三】numpy陣列的函式ix_()

python資料分析學習筆記九

Cris 的 Python 資料分析筆記 04：NumPy 矩陣的複製，排序，拓展

Cris 的 Python 資料分析筆記 03：NumPy 矩陣運算和常用函式（重點）

Cris 的 Python 資料分析筆記 02：NumPy 資料定位

Cris 的 Python 資料分析筆記 01：NumPy 基本知識

Python 資料分析與展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記3 -- Matplotlib 庫基礎

Python資料分析 讀書筆記

爬蟲

相關推薦

Python資料分析讀書筆記

爬蟲