1. 程式人生 > >python用正則表示式提取中文

python用正則表示式提取中文

Python re正則匹配中文,其實非常簡單,把中文的unicode字串轉換成utf-8格式就可以了,然後可以在re中隨意呼叫
unicode中中文的編碼為/u4e00-/u9fa5,因此正則表示式u”[\u4e00-\u9fa5]+”可以表示一個或者多箇中文字元
>>> import re

>>> s='中文:123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'
>>> print s
中文:123456aa哈哈哈bbcc

>>> re.match(u"[\u4e00-\u9fa5]+",s)
<_sre.SRE_Match object at 0xb77742c0>

>>> pat='中文'.decode("utf8")
>>> re.search(pat,s)
<_sre.SRE_Match object at 0x16a16df0>

>>> newpat='這裡是中文內容'.decode("utf8")

>>> news=re.sub(pat,newpat,s)
>>> print news 這裡是中文內容:123456aa哈哈哈bbcc from:http://blog.aizhet.com/web/12078.html

相關推薦

python表示式提取中文

Python re正則匹配中文,其實非常簡單,把中文的unicode字串轉換成utf-8格式就可以了,然後可以在re中隨意呼叫 unicode中中文的編碼為/u4e00-/u9fa5,因此正則表示式u”[\u4e00-\u9fa5]+”可以表示一個或者多箇中文字元 >&

Python 表示式一次替換文章中所有特殊符號,如“-,$()#+&*”之類

一個簡單的正則表示式,可能會起大作用。比如說字符集就是這樣。一篇文章如果有各種亂碼,就可以用這種方法去除。如去除“-,$()#+&*”之類符號是很方便的。按照查詢、分割、替換的套路再做一做這樣的練習。今天晚了,後續還要操作檔案來完善這一點。 import re

表示式提取Cookie值

Cookie是以“;”進行分隔的鍵值對字串,因此如果要提取所以的鍵值,我們需要對字串進行“;”與“=”的split(分割)操作,如下: function initCookie() { var cookie = document.cookie,

Python 3 表示式中文的匹配

import re s='中文匹配7.14 3000 '.encode('utf-8') s=s.decode('utf8') m =re.findall(u"[\u4e00-\u9fa5]+",s) print(m)搜了半天網上的都是Python2的程式碼,根本不能執行

python-表示式篩選文字資訊

【摘要】  本文主要介紹如何對多個文字進行讀取,並採用正則表示式對其中的資訊進行篩選,將篩選出來的資訊存寫到一個新文字。 文字基礎操作 開啟檔案:open(‘檔名’,‘開啟方式’)>>&g

表示式提取img中src資料

分享了正則表示式提取img的src的方法,一起來了解下。 要匹配的字串:<img src=image/ad1.gif width="128" height="36"/><img src='image/ad2.gif' width="128" height=

表示式提取資訊

正則表示式,說白了就是用來匹配字元的,正則表示式是用來簡潔表達一組字串的表示式. 正則表通常被用來檢索、替換那些符合某個模式(規則)的文字。 很多程式語言都支援正則表示式進行字串操作。在程式碼中常簡寫為regex、regexp或RE。 比如Python

python學習筆記】表示式從含中文的網頁中提取資料(含編碼轉換)

目標:用正則表示式從含中文的網頁中提取資料 1、獲得網頁全部資料 1.1思考過程 確定我們要操作的網頁:url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml' 開啟要操作的網頁:req = urllib2.open(url)

Python 表示式匹配中文

在python2.x中,匹配中文,首先要宣告utf8的編碼方式。 # coding:utf-8  其次,被匹配的字串一定要是utf8編碼: string = u'我是個好人。'  最後,正則表示式一定要是utf8編碼: pat = u'\u6211.

python 表示式python表示式提取郵箱、網址、手機號、ip地址

要從文字中提取電子郵件、url、手機號、ip地址等,我們可以使用殺手鐗正則表示式。下面是我封裝的函式,方便以後拿來直接用。 # encoding: utf-8 import re # 自定義獲取文

python 遇到表情程式碼出錯, 表示式去掉表情程式碼

>>> aa = '\U0001f60a\adwkdkdkkdk' # 這裡“\U0001f60a” 這是表情的程式碼 帶這個\ >>> import re >>> cc = re.compile(r'\U0

python3.x表示式匹配中文字串

re.match('^[\u4e00-\u9fa5|,。;?]+\?$','你好哈人日你,媽我。我?;們我為啥說在張志這?') 這演示了簡體,繁體,中文標點符號等等。可以看出python3.x對於中文字串匹配是可以執行得很好滴<pre name="code" cla

3.7 python表示式 郵箱及電話號碼的匹配

import re c = re.compile(r'^\[email protected](\w+\.)+(com|cn|net|edu)$') # string = ' [email protected]' string = '[email protected]'

表示式從攜程頁面原始碼提取酒店資訊並插入mysql資料庫

file_regEx_mysql_io desc: 從txt檔案中讀取字串,通過正則表示式提取關鍵字,並插入mysql資料庫的一個小demo. 前言 ​ 因為最近公司需要用到攜程上面的一些酒店資料,由於沒有接觸過爬蟲,所以只能投機取巧去爬html原始檔的程式碼,然後

Python 表示式提取Windows路徑中檔名

1. Regular Expression [^\\/:*?"<>|\r\n]+$ eg. c:\foler\file.ext Extract: file.ext 2. Python Code import re subject = 'c:\\foler

如何用python從文中獲取檔名再表示式批量修改檔名

第零步:問題的提出 我在網上購買了星火英語的六級晨讀美文100篇(六級早已高分飄過,不過很喜歡這些文章,買來重新品味),但是發現其文章的命名都為01.txt或10.txt等。為了便於檢索需要修改檔名稱。 第一步:從檔案中取出檔名。 我發現txt檔案的第一行為檔名,格式為如

python入門—2常見問題_1_表示式匹配中文

python2.7 在使用正則表示式來匹配中文字元時,經常會出現意想不到的問題,比如下面這個匹配問題: 1、問題 字串:      飛利浦(PHILIPS)      飛利浦(PHILIPS)      飛利浦(PHILIPS)      飛利浦(PHILIPS) 從字串中

python學習-表示式及re模塊

我只 com 返回 現在 輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1,創建正則表達式對象 想re.compile()傳入一個字符串值,表示正則表達式,它將返回一個Regex模式對象。 創建一

Python表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功,則返回一個Match,否則返回一個None; 第二個引數表示要匹配的字串; 第三個引數是標緻位,用於控制正則表示式的匹配方式,如:是否區分大小寫,多行匹配等等。 需要特別注意的是,這個方法並不是完