第七章7.1 資料清洗--將從網站上爬去的資料進行清洗然後轉為2-grams序列輸出

阿新 • • 發佈：2018-12-19

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
import re
import string
from collections import OrderedDict
from urllib.request import urlopen

from bs4 import BeautifulSoup


def cleanInput(input):
    input= re.sub('\n+'," ",input)
    input=re.sub('\[[0-9]*\]',"",input)
    input=re.sub(' +'," ",input)
    input=bytes(input,"UTF-8")
    input=input.decode("ascii","ignore")
    cleanInput=[]
    input=input.split(' ')
    for item in input:
        item=item.strip(string.punctuation)
        if len(item)>0 or (item.lower()=='a' or item.lower()=='t'):
            cleanInput.append(item)
    return cleanInput
def ngrams(input ,n):
    input=cleanInput(input)
    output=[]
    outputNew=[]
    for i in range(len(input)-n+1):
        output.append(str(input[i:i+n]))
    setout=set(output)
    for item in setout:
        outputNew.append((item,output.count(item)))
    return outputNew
html=urlopen("https://en.wikipedia.org/wiki/Python_(programming_language)")
bsObj=BeautifulSoup(html,"html.parser")
content=bsObj.find("div",{"id":"mw-content-text"}).get_text()
ngrams=ngrams(content,2)
ngrams=OrderedDict(sorted(ngrams,key=lambda t: t[1],reverse=True))
print(ngrams)
print("2-ngrams count is "+str(len(ngrams)))

第七章7.1 資料清洗--將從網站上爬去的資料進行清洗然後轉為2-grams序列輸出

#!/usr/bin/env python # _*_ coding:utf-8 _*_ import re import string from collections import OrderedD

第七章|7.4併發程式設計| I/O模型

I/O模型協程是單執行緒下的併發，並不是對效能都有所提升，一定是監測單個執行緒下的多個任務的I/O，遇到I/O不要讓它阻塞，給它自動切換到其他任務去，這樣就能提高單個執行緒下的執行效率。--->>用gevent模組來實現了，gevent是怎麼檢測I/O行為的呢，gevent監測行為，遇到I/O

哈工大計算機系統課後作業第七章7.13A的解釋

關於libm.a的問題，現解釋如下： 1. 正常情況下是如此結果： $ ar -t /usr/lib/x86_64-linux-gnu/libm.a ar: /usr/lib/x86_64-linux-gnu/libm.a: File format not recognized

浮動(第七章上機1)

<img src="https://img-blog.csdn.net/20161019145543962?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0

第二本第七章上機1北大青鳥網站導航

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/x

Thinking in Java 第七章 3-1

關系適合重載中文翻譯 system rbo 繼承 clean house Thinking in Java第七章研讀3-1總結問題引入：如何復用代碼 1.新的類是由現有類的對象所組成，方法稱為組合。（該方法只是復用了現有程序代碼的功能，而非他的形式） 2.按照

從網站上抓住相應資料至excel

import java.io.File; import java.io.IOException; import java.util.List; import java.util.concurrent.TimeUnit; import jxl.Workbook; import

算法入門經典-第七章例題7-1 除法

abcde 輸入表達式 c++ 技術分享 pan nbsp turn cnblogs 除法輸入正整數n，按從小到大的順序輸出所有形如abcde/fghij=n的表達式，其中a~j恰好為數字0~9的一個排列，2<=n<=79. 樣例輸入： 62 樣例輸出

Java How to Program習題_第七章_陣列及動態陣列（Array and ArrayList）——第一部分（7.1 - 7.22）

這一章的習題非常多，而且都有一定的難度（如海龜繪圖、騎士遊歷等）。我希望能夠全部做完，但是時間有限，最好還是加快進度往後面的章節進步吧。所以，先把已經完成的習題放上來吧。 Self-Review Exercises 7.1 Fill in the blank(

《利用python進行資料分析.第三版》第七章資料清洗和準備

7.1 處理缺失資料缺失資料在pandas中呈現的方式有些不完美，但對於大多數使用者可以保證功能正常。對於數值資料，pandas使用浮點值NaN（Not a Number）表示缺失資料。我們稱其為哨兵值，可以方便的檢測出來。處理缺失資料有以下幾個方

第七章類（class）7.1 筆記

最好不要把物件的定義和類的定義放在一起，這麼做無異於把兩種不同實體的定義混在了一條語句裡，一會定義類，一會又定義變數，顯然這是一種不被建議的行為。類的定義最後要加上分號（:) 成員函式的宣告必須放在類的內部，它的定義則既可以在類的內部也可以在類的外部，而作為介面組成部分

算法入門經典-第七章例題7-2-2 可重集的排列

int ati ret oid blog 入門經典 for class scan 可重：如果問題變成輸入數組p，並按字典序輸出數組A個元素的所有全排列，則需要修改代碼集的全排列 // Rujia Liu #include<cstdio> #

Java程式設計題解與上機指導（第四版）第七章 Java語言的高階特性 7.2藉助泛型定義一個線性表

線性表：由相同型別的物件組成的一個線性結構360百科：定義線性表(linear list)是資料結構的一種，一個線性表是n個具有相同特性的資料元素的有限序列。資料元素是一個抽象的符號，其具體含義在不同的情況下一般不同。在稍複雜的線性表中，一個數據元素可由多個數據項(

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

6-1 鄰接矩陣儲存圖的深度優先遍歷（20 分）第七章--圖--基本概念-計算機17級

6-1 鄰接矩陣儲存圖的深度優先遍歷（20 分）試實現鄰接矩陣儲存圖的深度優先遍歷。函式介面定義： void DFS( MGraph Graph, Vertex V, void (*Visit)(Vertex) ); 其中MGraph是鄰接矩陣儲存的圖

C++ primer 讀書筆記第七章 01 定義抽象資料型別

定義成員函式成員函式的宣告必須在類的內部，它的定義既可以在類的內部也可以在類的外部。 struct Sales_data { std::string isbn() const { return bookNo; } double arv_price() co

玩轉資料結構——第七章：優先佇列和堆

內容概要：什麼是優先佇列？堆的基礎結構向堆中新增元素Sift Up 從堆中取出元素和Sift Down Heapify和Replace 基於堆的優先佇列 LeetCode上優先佇列相關的問題 java中的PriorityQueue 和堆相關的更多話題和

第三章作業1-棧-計算機17級 7-16 一元多項式求導（20 分）

7-16 一元多項式求導（20 分）設計函式求一元多項式的導數。輸入格式: 以指數遞降方式輸入多項式非零項係數和指數（絕對值均為不超過1000的整數）。數字間以空格分隔。輸出格式: 以與輸入相同的格式輸出導數多項式非零項的係數和指數。數字間以空格分隔，但結尾

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

第七章7.1 資料清洗--將從網站上爬去的資料進行清洗然後轉為2-grams序列輸出

相關推薦