第八章自然語言處理-概括資料-資料清洗加去掉常規詞語

阿新 • • 發佈：2018-12-19

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
import operator
import re
import string
from collections import OrderedDict
from urllib.request import urlopen

from bs4 import BeautifulSoup


def cleanInput(input):
    input= re.sub('\n+'," ",input)
    input=re.sub('\[[0-9]*\]',"",input)
    input=re.sub(' +'," ",input)
    input=bytes(input,"UTF-8")
    input=input.decode("ascii","ignore")
    cleanInput=[]
    input=input.split(' ')
    for item in input:
        item=item.strip(string.punctuation)
        if len(item)>0 or (item.lower()=='a' or item.lower()=='t'):
            cleanInput.append(item)
    return cleanInput
def ngrams(input ,n):
    input=cleanInput(input)
    output={}
    for i in range(len(input)-n+1):
        outputTmp=" ".join(input[i:i+n])
        if outputTmp not in output:
            output[outputTmp]=0
        output[outputTmp]+=1
    return output
def isCommon(ngram):
    commonWords = ["the", "be", "and", "of", "a", "in", "to", "have", "it",
                   "i", "that", "for", "you", "he", "with", "on", "do", "say", "this",
                   "they", "is", "an", "at", "but", "we", "his", "from", "that", "not",
                   "by", "she", "or", "as", "what", "go", "their", "can", "who", "get",
                   "if", "would", "her", "all", "my", "make", "about", "know", "will",
                   "as", "up", "one", "time", "has", "been", "there", "year", "so",
                   "think", "when", "which", "them", "some", "me", "people", "take",
                   "out", "into", "just", "see", "him", "your", "come", "could", "now",
                   "than", "like", "other", "how", "then", "its", "our", "two", "more",
                   "these", "want", "way", "look", "first", "also", "new", "because",
                   "day", "more", "use", "no", "man", "find", "here", "thing", "give", "many",
                   "well"]
    ngram=ngram.lower()
    if ngram in commonWords:
        return True
    return False
content=str(urlopen("https://pythonscraping.com/files/inaugurationSpeech.txt").read(),'utf-8')
ngrams=ngrams(content,2)
nagramsPicked=ngrams.copy()
for k,v in ngrams.items():
    words=k.split(" ")
    for eachWord in words:
        flag=isCommon(eachWord)
        if flag:
            nagramsPicked.pop(k)
            break
sortedNagrams=sorted(ngrams.items(), key=operator.itemgetter(1),reverse=True)
print(sortedNagrams)

第八章自然語言處理-概括資料-資料清洗加去掉常規詞語

#!/usr/bin/env python # _*_ coding:utf-8 _*_ import operator import re import string from collections import OrderedDict from urllib.reque

數學之美第2章自然語言處理-從規則到統計

2，如果僅僅使用文法規則就想覆蓋哪怕是20%真是的語句，文法規則的數量至少也要幾萬條，而且還要說明各個規則特定的使用環境，也就說你能考好資料結構期末試卷，但是換成考研的試卷你就考不好了，換成軟體工程裡的資料結構你照樣考不好，也就是說呢，你永遠也窮舉不完的。

第八章編譯預處理

none 預處理條件所有習慣編譯預處理目錄子目錄 size 編譯預處理指令（1）宏定義（2）條件編譯（3）文件包含宏定義　　宏定義是指將一個標識符（又稱宏名）定義為一個字符串（或稱替換文本）。在編譯預處理時，對程序中出現的所有宏名都用相

第八章C#語言資料庫技術基礎

上機一:--INSERT dbo.Student(StudentNo,LoginPwd,StudentName,Sex,GradeId,Phone,Address,BornDate,Email) --VALUES('S1201302001','zhangsan','張三',

Coursera課程下載和存檔計劃三：機器學習 & 自然語言處理 & 推薦系統 & 資料探勘相關公開課

週末對之前儲存和下載的Coursera課程做了一下整理和歸類，先送出機器學習、自然語言處理、推薦系統和資料探勘相關的14門課程資源。這些公開課資源很多來自於之前課程圖譜群內朋友的或者微博上的朋友的分享，這裡做了一些補充，主要針對Coursera舊課程平臺的課程進行備份和分享

第八章 Libgdx輸入處理（9）選單捕獲

Android遊戲開發群：290051794 Libgdx遊戲開發框架交流群：261954621 在Android中，當用戶按下返回鍵，這樣通常會關閉正在執行的Activity。遊戲通常會在退出之前

初學者如何查閱自然語言處理領域學術資料？

曾經寫過一篇小文，初學者如何查閱自然語言處理（NLP）領域學術資料_zibuyu_新浪部落格，也許可以供你參考。昨天實驗室一位剛進組的同學發郵件來問我如何查詢學術論文，這讓我想起自己剛讀研究生時茫然四顧的情形：看著學長們高談闊論領域動態，卻不知如何入門。經過研究生幾年的耳濡目染，現在終於能自信地知道去哪兒瞭解

第八章8.3自然語言處理-庫的基本運用

#!/usr/bin/env python # _*_ coding:utf-8 _*_ #下載nltk的data # import nltk # nltk.download() #建立text物件

springboot學習第八章:統一異常，資料校驗處理

springboot中，預設在傳送異常時，會跳轉值/error請求進行錯誤的展現，根據不同的Content-Type展現不同的錯誤結果，如json請求時，直接返回json格式引數。瀏覽器訪問異常時：使用postman訪問時：

斯坦福大學-自然語言處理入門筆記第十八課排序檢索介紹（ranked retrieval）

一、介紹之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。排序

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

一、生成模型與判別模型 1、引言到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點：準確性很高更容易包含很多和

《NLP漢語自然語言處理原理與實踐》第四章 NLP中的概率圖模型

目前最流行的演算法思想包含如下兩大流派：基於概率論和圖論的概率圖模型；基於人工神經網路的深度學習理論。 4.1概率論迴歸 4.1.1 多元概率論的幾個基本概念 4.1.2 貝葉斯與樸素貝葉斯演算法

《NLP漢語自然語言處理原理與實踐》第三章詞彙與分詞技術

中文分詞的研究經歷了二十多年，基本上可以分為如下三個流派。 1.機械式分詞法(基於字典)。機械分詞的原理是將文件中的字串與詞典中的詞條進行逐一匹配，如果詞典中找到某個字串，則匹配成功，可以切分，否則不予切分。基於詞典的機械分詞法，實現簡單、實用性強，但機械分詞法的最大的缺點是詞典的完備

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

彙編實驗之第八章資料處理的兩個基本問題

一：reg來表示一個暫存器，用sreg來表示一個段暫存器。　　reg的集合包括：ax,bx,cx,dx,ah,al,bh,bl,ch,cl,dh,dl,sp,bp,si,di 　　serg集合包括：ds,ss,cs,es 二：（1）在8086CPU中，只有bx,si,di,bp這四個暫存器可以用在“【

組合語言之第五章至第八章知識彙總組合語言之第五章【BX】和loop指令組合語言之第六章包含多個段的程式組合語言之第七章更靈活的定位記憶體地址的方法彙編實驗之第八章資料處理的兩個基本問題

組合語言之第五章【BX】和loop指令一：【bx】　　【bx】和之前用過的【0】有些類似，都是表示記憶體單元，而它的偏移地址在bx中。段地址預設在ds中　　描述一個記憶體單元需要知道，1記憶體單元的地址，

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

python自然語言處理第五章習題

3.分詞和標註下面的句子：They wind back the clock,while we chase after the wind.句子中包含哪些不同的發音和詞類？import nltks='They wind back the clock,while we chase

《用Python進行自然語言處理》第 1 章語言處理與 Python

1. 將簡單的程式與大量的文字結合起來，我們能實現什麼?2. 我們如何能自動提取概括文字風格和內容的關鍵詞和短語?3. Python 程式語言為上述工作提供了哪些工具和技術?4. 自然語言處理中的有哪些有趣的挑戰?1.1 語言計算:文字和單詞python入門NLTK 入門fr

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

一、原理使用jieba切詞用td-idf計算文字的詞頻和逆文件詞頻排序選出最重要的2個或3個詞作為這段文字的id 具有相同id的文字被歸為一類二、使用python實現簡單的文字聚類，其中使用了tf-idf演算法，jieba分詞，把相似的文字聚合在

第八章 自然語言處理-概括資料-資料清洗加去掉常規詞語

相關推薦

第八章自然語言處理-概括資料-資料清洗加去掉常規詞語