Python通過正則表示式和字串處理獲取方式獲取所需子字串的方式

阿新 • • 發佈：2019-01-25

在爬蟲軟體時我們經常需要從url中尋找並獲取我們所需要的那一部分內容

此例我們需要從網址new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"中獲取

fyfzfyz4058260

一、字串處理

涉及方法：

split() ：字串分割

lstrip('doc-i') 從左開始講doc-i內容從字串中移除

rstrip('.shtml')從右開始將.shtml從字串中移除

       詳細分佈程式碼講解：

#爬蟲所需url
new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"
#分步驟寫：
arr = new_url.split("/")
print(arr)
#['http:', '', 'news.sina.com.cn', 'c', 'gat', '2017-06-14', 'doc-ifyfzfyz4058260.shtml']
arr = arr[-1]  #取列表最後一個元素
print(arr)
#doc-ifyfzfyz4058260.shtml
newsId = arr.lstrip('doc-i').rstrip('.shtml')
print(newsId) #的得到所需的內容
#fyfzfyz4058260

合併寫法

new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"
newsId = new_url.split("/")[-1].lstrip('doc-i').rstrip('.shtml')
print(newsId)  #fyfzfyz4058260

二、正則表示式寫法

#正則1表示式法
import re
new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"
m = re.search('doc-i(.+).shtml',new_url)
print(m.group(0),m.group(1))
#group(0) doc-ifyfzfyz4058260.shtml 匹配到的內容
#group(1)fyfzfyz4058260  括號內的內容

Python通過正則表示式和字串處理獲取方式獲取所需子字串的方式

在爬蟲軟體時我們經常需要從url中尋找並獲取我們所需要的那一部分內容此例我們需要從網址new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"中獲取 fyfzf

Python通過正則表示式獲取,去除(過濾)或者替換HTML標籤的幾種方法(本文由169it.com蒐集整理)

python正則表示式關鍵內容: python正則表示式轉義符: . 匹配除換行符以外的任意字元 \w 匹配字母或數字或下劃線或漢字 \s 匹配任意的空白符 \d 匹配數字 \b 匹配單詞的開始或結束 ^ 匹配字串的開始 $ 匹配字串的結束 \W 匹配任意不是字母，數字

正則表示式和python的re模組

0 正則表示式 0.1 常見的元字元 .: 匹配除\r\n之外的任何單個字元 *: 匹配前面的子表示式任意次(0-無窮)，例如Zz*可以匹配Z，可以匹配Zz，也可以匹配Zzzzzzzzzz +: 匹配前面的

Python學習手冊之正則表示式和元字元

在上一篇文章中，我們介紹了 Python 的資料封裝、類方法、靜態方法和屬性函式，現在我們介紹 Python 的正則表示式和元字元。檢視上一篇文章請點選：https://www.cnblogs.com/dustman/p/10019973.html 正則表示式正則表示式是一種強大的字串

【unix學習】檔案處理3—正則表示式和grep命令

unix檔案處理—正則表示式和grep命令正則表示式使用\{\}匹配模式結果出現的次數 pattern\{n\} 用來匹配前面pattern出現次數。n為次數 pattern\{n，\}m 含義同上，但次數最少為n pattern\{n，m

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

python爬蟲提取資訊:正則表示式和xpath

爬蟲主要是兩個功能，一是訪問網頁，二是從網頁中提取資料。事實上訪問網頁基本都是呼叫介面直接就可以訪問，而從網頁中正確地提取資料是主要工作量所在。這裡給出兩種提取資料的選擇和用到的相關庫。先說說兩種方法的特點： python正則表示式：速度快，一整篇html能夠用一句簡

python輸入框通過正則表示式的校驗

之前一直沒有用過正則表示式，這回需要校驗輸入框的輸入，看是否符合格式要求。相容如“v1.0.0”和”1.0.0”的格式。臨時查了一下，就用上了。程式碼如下，以便備查。 import re

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

Java呼叫replaceAll方法通過正則表示式把HTML字串中的img標籤的src預設屬性值uri補全

class Test { public static void main(String[] args) { String domain = "http://avatar.csdn.net";

python通過正則獲取字符串指定開頭和結尾的中間字符串的代碼

關於 def start 正則 pat 取字符串 tar 中間 middle 下面的代碼是關於python通過正則獲取字符串指定開頭和結尾的中間字符串的代碼，應該能對各位朋友有些好處。 def GetMiddleStr(content,startStr,endStr):

Python常用正則表示式語法和寫法

今天因為看一個爬蟲的例子,看到資料抓取的時候別人用的正則表示式去匹配想要的資料.當即對這個表示式感興趣起來,仔細閱讀了一下相關文件,對其有了大概的認識,索性寫了一篇文章來介紹python中相關正則表示式的用法,以便自己日後參閱! 相關介紹正則表示式是一

Python使用正則表示式分割字串

re.split(pattern, string, [maxsplit], [flags]) pattern：表示模式字串，由要匹配的正則表示式轉換而來。 string：表示要匹配的字串。 maxs

通過正則表示式獲取標準url地址的域名和檔案字尾名

形如“http://www.abcdef.com/index.php”或“http://www.abcdef.com/index.php?g=Index&m=Index&a=index”的地址即為標準的url地址，現在我們要通過正則式來獲取它的域名“abcd

python學習-正則表示式及re模塊

我只 com 返回現在輸出 -1 完全匹配 group clu python中的所有正則表達式函數都在re模塊中。import re導入該模塊。 1，創建正則表達式對象想re.compile()傳入一個字符串值，表示正則表達式，它將返回一個Regex模式對象。創建一

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

正則表示式和Object類

Java 正則表示式 Test2.java 檔案程式碼： /正則表示式 regex /*在對字串資料進行一些複雜的匹配,查詢，替換等操作時，通過正則表示式，可以方便實現字串的複雜操作 * */

Python中正則表示式常用函式sub,search,findall,split等使用

1.原生字串r python中字串前面加上 r 表示原生字串,不會轉義。與大多數程式語言相同，正則表示式裡使用"\"作為轉義字元，這就可能造成反斜槓困擾。假如你需要匹配文字中的字元"\"，那麼使用程式語言表示的正則表示式裡將需要4個反斜槓"\\"：前兩個和後兩個分別用於在程式語言裡轉義成反斜

Python中正則表示式對單個字元，多個字元，匹配邊界等使用

Regular Expression，正則表示式，又稱正規表示式、正規表示法、正則表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），是電腦科學的一個概

20180102-正則表示式和grep

grep: Global research express pattern 根據模式搜尋文字，並將符合模式的文字行顯示出來 pattern：文字字元和正則表示式的元字元組合而成的匹配條件 grep [OPTIONS] PATTERN [FILE...] -i

Python通過正則表示式和字串處理獲取方式獲取所需子字串的方式

在爬蟲軟體時我們經常需要從url中尋找並獲取我們所需要的那一部分內容

此例我們需要從網址new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"中獲取

一、字串處理

二、正則表示式寫法

相關推薦