1. 程式人生 > >用python進行資料預處理,過濾特殊符號,英文和數字。(適用於中文分詞)

用python進行資料預處理,過濾特殊符號,英文和數字。(適用於中文分詞)

要進行中文分詞,必須要求資料格式全部都是中文,需求過濾掉特殊符號、標點、英文、數字等。當然了使用者可以根據自己的要求過濾自定義字元。
實驗環境:python、mysql

實驗目的:從資料庫讀取資料,過濾點無用字元,然後存入到資料庫一個表裡面。

程式碼如下:

# -*- coding: UTF-8 -*-
import MySQLdb as mdb
import  re
def createStatistics():
    """ 建立新的微博內容表 """
    try:
        con = mdb.connect('localhost', 'root', '資料庫密碼'
, '資料庫',charset='utf8');# with con: #獲取連線的cursor,只有獲取了cursor,我們才能進行各種操作 cur = con.cursor() #建立一個數據表 writers(id,name) cur.execute("DROP TABLE IF EXISTS new") cur.execute("CREATE TABLE new (\ uid varchar(255) NOT NULL,\ mid varchar(255) NOT NULL,\ time date ,\ content text CHARACTER SET utf8 NOT NULL\ ) ENGINE=MyISAM DEFAULT CHARSET=latin1;"
) cur.execute("SELECT * FROM old") numrows = int(cur.rowcount) rows = cur.fetchall() r1 = u'[a-zA-Z0-9’!"#$%&\'()*+,-./:;<=>[email protected],。?★、…【】《》?“”‘’![\\]^_`{|}~]+'#使用者也可以在此進行自定義過濾字元 r2 = u'\s+;' for i in range(numrows): tem=re.sub(r1, ''
, rows[i][3]) #過濾內容中的各種標點符號 cur.execute("INSERT INTO new(uid,mid,time,content) VALUES(%s, %s, %s, %s)", (rows[i][0], rows[i][1], rows[i][2], tem)) except mdb.Error,e: print "Mysql Error %d: %s" % (e.args[0], e.args[1]) con.close() createStatistics() print 'done'

相關推薦

python進行資料處理過濾特殊符號英文數字適用中文

要進行中文分詞,必須要求資料格式全部都是中文,需求過濾掉特殊符號、標點、英文、數字等。當然了使用者可以根據自己的要求過濾自定義字元。 實驗環境:python、mysql 實驗目的:從資料庫讀取資料,

3-6 Pandas 進行資料處理資料清洗與視覺化版本:py3

主要內容: 格式轉換 缺失資料 異常資料 資料標準化操作 格式轉換 如Python記錄時間的方式,不能夠直接實現減運算,就需要進行轉換 pandas.to_datetime 缺失資料 忽略缺失資料 直接標記 利用平均值、最常出現值進行填充 異常資料 處

機器學習sklearn進行資料處理:缺失值處理資料標準化、歸一化

在我們平時進行資料資料探勘建模時,一般首先得對資料進行預處理,其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。 下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

spark | 手把手教你spark進行資料處理

本文始發於個人公眾號:**TechFlow**,原創不易,求個關注 今天是spark專題的第七篇文章,我們一起看看spark的資料分析和處理。 過濾去重 在機器學習和資料分析當中,對於資料的瞭解和熟悉都是最基礎的。所謂巧婦難為無米之炊,如果說把用資料構建一個模型或者是支撐一個複雜的上層業務比喻成做飯的話

Python進行文字處理文字過濾詞頻統計特徵選擇文字表示

系統:win7 32位 分詞軟體:PyNLPIR 整合開發環境(IDE):Pycharm 功能:實現多級文字預處理全過程,包括文字分詞,過濾停用詞,詞頻統計,特徵選擇,文字表示,並將結果匯出為WEKA能夠處理的.arff格式。 直接上程式碼: #!/usr/bin/

利用python Pandas進行資料處理

 目錄:       1.安裝pandas                 2.pandas的引入                 3.資料清洗                        ①處理缺

利用Python Pandas進行資料處理-資料清洗

資料缺失、檢測和過濾異常值、移除重複資料 資料缺失 資料缺失在大部分資料分析應用中都很常見,Pandas使用浮點值NaN表示浮點和非浮點陣列中的缺失資料,他只是一個便於被檢測出來的資料而已。 from pandas import Series,Da

Python 進行資料分析不懂 Python求合適的 Python 書籍或資料推薦?

我自己的碩士論文是用Python做資料分析的(https://github.com/cqcn1991/Wind-Speed-Analysis) 這個回答,可能不是很適合題主。題主應該就是想稍微用一下Python. 我這裡介紹的是系統性、偏重使用的。1. 什麼樣的教程最好,最快、最適合入門 對於0基礎的人來說,

Python商品資料處理與K-Means聚類視覺化分析

資料提取 在我之前的文章Scrapy自動爬取商品資料爬蟲裡實現了爬蟲爬取商品網站搜尋關鍵詞為python的書籍商品,爬取到了60多頁網頁的1260本python書籍商品的書名,價格,評論數和商品連結,並將所有商品資料儲存到本地的.json檔案中。資料儲存格式如下:

關於使用Sklearn進行資料處理 —— 缺失值Missing Value處理

關於缺失值(missing value)的處理 在sklearn的preprocessing包中包含了對資料集中缺失值的處理,主要是應用Imputer類進行處理。 首先需要說明的是,numpy的陣列中可以使用np.nan/np.NaN(Not A Number)來代替

【轉】關於使用sklearn進行資料處理 —— 歸一化/標準化/正則化

一、標準化(Z-Score),或者去除均值和方差縮放 公式為:(X-mean)/std  計算時對每個屬性/每列分別進行。 將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。 實現時,有兩種不同的方式:

Python進行自然語言處理》下載

2018年11月01日 13:37:53 qq_43576475 閱讀數:3 標籤: 程式設計 資料

關於使用sklearn進行資料處理 —— 歸一化/標準化/正則化

一、標準化(Z-Score),或者去除均值和方差縮放 公式為:(X-mean)/std  計算時對每個屬性/每列分別進行。 將資料按期屬性(按列進行)減去其均值,並處以其方差。得到的結果是,對於每個屬性/每列來說所有資料都聚集在0附近,方差為1。 實現時,有兩種不同的方

Python進行自然語言處理》第 1 章 語言處理Python

1. 將簡單的程式與大量的文字結合起來,我們能實現什麼?2. 我們如何能自動提取概括文字風格和內容的關鍵詞和短語?3. Python 程式語言為上述工作提供了哪些工具和技術?4. 自然語言處理中的有哪些有趣的挑戰?1.1 語言計算:文字和單詞python入門NLTK 入門fr

初學者Python進行自然語言處理筆記一

Python程式設計 連結串列list 在Python中連結串列的表示為:[](這是一個空連結串列),或者[‘A’,’B’].list中的元素是允許重複的! ##########有關列表的基本操作############## #定義一個空連結串列 li

python進行自然語言處理 第一章練習題答案

搜了一下好像沒有官方答案 自己做完並且結合了網上的一版答案 最終將結果貼在這裡 希望朋友們來批評指正. ○嘗試使用 Python 直譯器作為一個計算器,輸入表示式,如 12/(4+1)。 答: 12/(4+1) 注意/ 在python中指的是整除 ○

Python進行自然語言處理》程式碼筆記:第七章:從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

使用sklearn進行資料處理 —— 歸一化/標準化/正則化

本文主要是對照scikit-learn的preprocessing章節結合程式碼簡單的回顧下預處理技術的幾種方法,主要包括標準化、資料最大最小縮放處理、正則化、特徵二值化和資料缺失值處理。內容比較簡單,僅供參考! 首先來回顧一下下面要用到的基本知識。 均值公式:

Python進行資料整理

【資料整理】 資料整理是在分析,視覺化和在使用機器學習建立預測模型之前,進行資料收集,資料評估和資料整理的過程 【資料收集】 方法:1、從網上直接下載資料來源;2、用程式設計方法下載資料來源;3、

weka進行資料處理

裝入資料 開啟weka,點選進入explorer介面,在preprocesstag下,點選open file 按鈕裝入ARFF資料檔案。 Weka同時也具有讀入“.csv”格式檔案的能力,在做資料探勘中,很多時候資料是儲存在excel的電子表格中,開啟Excel檔案,從Fi