1. 程式人生 > >python正則表示式從字串中提取數字

python正則表示式從字串中提取數字

python從字串中提取數字

使用正則表示式,用法如下:
## 總結
## ^ 匹配字串的開始。
## $ 匹配字串的結尾。
## \b 匹配一個單詞的邊界。
## \d 匹配任意數字。
## \D 匹配任意非數字字元。
## x? 匹配一個可選的 x 字元 (換言之,它匹配 1 次或者 0 次 x 字元)。
## x* 匹配0次或者多次 x 字元。
## x+ 匹配1次或者多次 x 字元。
## x{n,m} 匹配 x 字元,至少 n 次,至多 m 次。
## (a|b|c) 要麼匹配 a,要麼匹配 b,要麼匹配 c。
## (x) 一般情況下表示一個記憶組 (remembered group)。你可以利用 re.search 函式返回物件的 groups() 函式獲取它的值。
## 正則表示式中的點號通常意味著 “匹配任意單字元”
解題思路:
  1. 既然是提取數字,那麼數字的形式一般是:整數,小數,整數加小數;
  2. 所以一般是形如:----.-----
  3. 根據上述正則表示式的含義,可寫出如下的表示式:"\d+\.?\d*";
  4. \d+匹配1次或者多次數字,注意這裡不要寫成*,因為即便是小數,小數點之前也得有一個數字;\.?這個是匹配小數點的,可能有,也可能沒有;\d*這個是匹配小數點之後的數字的,所以是0個或者多個;
程式碼如下:
import re

string="A1.45,b5,6.45,8.82"
print re.findall(r"\d+\.?\d*",string)

# ['1.45', '5', '6.45', '8.82']

匹配指定字串開頭的數字

例如下面的string:

tensorflow:Final best valid 0 loss=0.20478513836860657 norm_loss=0.767241849151384 roc=0.8262403011322021 pr=0.39401692152023315 calibration=0.9863265752792358 rate=0.0

提取 calibration=0.9863265752792358 .

# 匹配“calibration=”後面的數字
pattern = re.compile(r'(?<=calibration=)\d+\.?\d*')
pattern.findall(string)

# ['0.9863265752792358']

在這裡插入圖片描述

匹配包含指定字串開頭的數字

pattern = re.compile(r'(?:loss=)\d+\.?\d*')
pattern.findall(string)

# ['loss=0.20478513836860657', 'loss=0.767241849151384']

在這裡插入圖片描述

匹配時間,17:35:24

string = "WARNING:tensorflow: 20181011 15:28:39 Initialize training"
pattern = re.compile(r'\d{2}:\d{2}:\d{2}')
pattern.findall(string)

# ['15:28:39']

匹配時間,20181011 15:28:39

string = "WARNING:tensorflow: 20181011 15:28:39 Initialize training"
pattern = re.compile(r'\d{4}\d{2}\d{2}\s\d{2}:\d{2}:\d{2}')
pattern.findall(string)

# ['20181011 15:28:39']