1. 程式人生 > >python中字串的操作方法大全

python中字串的操作方法大全

轉自:https://www.jb51.net/article/141376.htm
這篇文章主要給大家介紹了關於python中字串操作方法的相關資料,文中通過示例程式碼詳細介紹了關於python中字串的大小寫轉換、isXXX判斷、填充、子串搜尋、替換、分割、join以及修剪:strip、lstrip和rstrip的相關內容,需要的朋友可以參考下
前言

python中字串物件提供了很多方法來操作字串,功能相當豐富。
print(dir(str))

[…‘capitalize’, ‘casefold’, ‘center’, ‘count’, ‘encode’, ‘endswith’, ‘expandtabs’, ‘find’, ‘format’, ‘format_map’, ‘index’, ‘isalnum’, ‘isalpha’, ‘isdecimal’, ‘isdigit’, ‘isidentifier’, ‘islower’, ‘isnumeric’, ‘isprintable’, ‘isspace’, ‘istitle’, ‘isupper’, ‘join’, ‘ljust’, ‘lower’, ‘lstrip’, ‘maketrans’, ‘partition’, ‘replace’, ‘rfind’, ‘rindex’, ‘rjust’, ‘rpartition’, ‘rsplit’, ‘rstrip’, ‘split’, ‘splitlines’, ‘startswith’, ‘strip’, ‘swapcase’, ‘title’, ‘translate’, ‘upper’, ‘zfill’]
這些方法的使用說明見官方文件:string methods,本文對它們進行詳細解釋,各位以後可將本文當作手冊。
這裡沒有模式匹配(正則)相關的功能。python中要使用模式匹配相關的方法操作字串,需要import re匯入re模組。關於正則模式匹配,參見:re Module Contents。
注意,python中字串是不可變物件,所以所有修改和生成字串的操作的實現方法都是另一個記憶體片段中新生成一個字串物件。例如,‘abc’.upper()將會在劃分另一個記憶體片段,並將返回的ABC儲存在此記憶體中。
下文出現的"S"表示待操作的字串。本文沒有對casefold,encode,format,format_map進行介紹,前兩者和unicode有關,後兩者內容有點太多。
1.大小寫轉換

1.1 lower、upper

S.lower()
S.upper()

返回S字串的小寫、大寫格式。(注意,這是新生成的字串,在另一片記憶體片段中,後文將不再解釋這種行為)
例如:

>>> print('ab XY'.lower())
ab xy
>>> print('ab XY'.upper())
AB XY

1.2 title、capitalize

S.title()
S.capitalize()
前者返回S字串中所有單詞首字母大寫且其他字母小寫的格式,後者返回首字母大寫、其他字母全部小寫的新字串。
例如:

>>> print('ab XY'.title())
Ab Xy
>>> print('abc DE'.capitalize())
Abc de

1.3 swapcase

S.swapcase()
swapcase()對S中的所有字串做大小寫轉換(大寫–>小寫,小寫–>大寫)。

>>> print('abc XYZ'.swapcase())
ABC xyz

2.isXXX判斷

2.1 isalpha,isdecimal,isdigit,isnumeric,isalnum

S.isdecimal()
S.isdigit()
S.isnumeric()
S.isalpha()
S.isalnum()
測試字串S是否是數字、字母、字母或數字。對於非Unicode字串,前3個方法是等價的。
例如:

>>> print('34'.isdigit())
True
>>> print('abc'.isalpha())
True
>>> print('a34'.isalnum())
True

2.2 islower,isupper,istitle

S.islower()
S.isupper()
S.istitle()
判斷是否小寫、大寫、首字母大寫。要求S中至少要包含一個字串字元,否則直接返回False。例如不能是純數字。
注意,istitle()判斷時會對每個單詞的首字母邊界判斷。例如,word1 Word2、word1_Word2、word1()Word2中都包含兩個單詞,它們的首字母都是"w"和"W"。因此,如果用istitle()去判斷它們,將返回False,因為w是小寫。
例如:

>>> print('a34'.islower())
True
>>> print('AB'.isupper())
True
>>> print('Aa'.isupper())
False
>>> print('Aa Bc'.istitle())
True
>>> print('Aa_Bc'.istitle())
True
>>> print('Aa bc'.istitle())
False
>>> print('Aa_bc'.istitle())
False

下面的返回False,因為非首字母C不是小寫

>>> print('Aa BC'.istitle())
False

2.3 isspace,isprintable,isidentifier

S.isspace()
S.isprintable()
S.isidentifier()
分別判斷字串是否是空白(空格、製表符、換行符等)字元、是否是可列印字元(例如製表符、換行符就不是可列印字元,但空格是)、是否滿足識別符號定義規則。
例如:
判斷是否為空白。沒有任何字元是不算是空白。

>>> print(' '.isspace())
True
>>> print(' \t'.isspace())
True
>>> print('\n'.isspace())
True
>>> print(''.isspace())
False
>>> print('Aa BC'.isspace())
False

判斷是否是可列印字元。

>>> print('\n'.isprintable())
False
>>> print('\t'.isprintable())
False
>>> print('acd'.isprintable())
True
>>> print(' '.isprintable())
True
>>> print(''.isprintable())
True

判斷是否滿足識別符號定義規則。
識別符號定義規則為:只能是字母或下劃線開頭、不能包含除數字、字母和下劃線以外的任意字元。

>>> print('abc'.isidentifier())
True
>>> print('2abc'.isidentifier())
False
>>> print('abc2'.isidentifier())
True
>>> print('_abc2'.isidentifier())
True
>>> print('_abc_2'.isidentifier())
True
>>> print('_Abc_2'.isidentifier())
True
>>> print('Abc_2'.isidentifier())
True

3.填充

3.1 center

S.center(width[, fillchar])
將字串居中,左右兩邊使用fillchar進行填充,使得整個字串的長度為width。fillchar預設為空格。如果width小於字串的長度,則無法填充直接返回字串本身(不會建立新字串物件)。
例如:
使用下劃線填充並居中字串

>>> print('ab'.center(4,'_'))
_ab_
>>> print('ab'.center(5,'_'))
__ab_

使用預設的空格填充並居中字串

>>> print('ab'.center(4))
 ab 
>>> print(len('ab'.center(4)))
4
width小於字串長度
>>> print('abcde'.center(3))
abcde

3.2 ljust和rjust

S.ljust(width[, fillchar])
S.rjust(width[, fillchar])
ljust()使用fillchar填充在字串S的右邊,使得整體長度為width。rjust()則是填充在左邊。如果不指定fillchar,則預設使用空格填充。
如果width小於或等於字串S的長度,則無法填充,直接返回字串S(不會建立新字串物件)。
例如:

>>> print('xyz'.ljust(5,'_'))
xyz__
>>> print('xyz'.rjust(5,'_'))
__xyz

3.3 zfill

S.zfill(width)
用0填充在字串S的左邊使其長度為width。如果S前右正負號+/-,則0填充在這兩個符號的後面,且符號也算入長度。
如果width小於或等於S的長度,則無法填充,直接返回S本身(不會建立新字串物件)。

>>> print('abc'.zfill(5))
00abc

>>> print('-abc'.zfill(5))
-0abc

>>> print('+abc'.zfill(5))
+0abc

>>> print('42'.zfill(5))
00042

>>> print('-42'.zfill(5))
-0042

>>> print('+42'.zfill(5))
+0042

4.子串搜尋

4.1 count

S.count(sub[, start[, end]])
返回字串S中子串sub出現的次數,可以指定從哪裡開始計算(start)以及計算到哪裡結束(end),索引從0開始計算,不包括end邊界。
例如:

>>> print('xyabxyxy'.count('xy'))
3

次數2,因為從index=1算起,即從’y’開始查詢,查詢的範圍為’yabxyxy’

>>> print('xyabxyxy'.count('xy',1))
2

次數1,因為不包括end,所以查詢的範圍為’yabxyx’

>>> print('xyabxyxy'.count('xy',1,7))
1

次數2,因為查詢的範圍為’yabxyxy’

>>> print('xyabxyxy'.count('xy',1,8))
2

4.2 endswith和startswith

S.endswith(suffix[, start[, end]])
S.startswith(prefix[, start[, end]])

endswith()檢查字串S是否已suffix結尾,返回布林值的True和False。suffix可以是一個元組(tuple)。可以指定起始start和結尾end的搜尋邊界。
同理startswith()用來判斷字串S是否是以prefix開頭。
例如:
suffix是普通的字串時。

>>> print('abcxyz'.endswith('xyz'))
True

False,因為搜尋範圍為’yz’

>>> print('abcxyz'.endswith('xyz',4))
False

False,因為搜尋範圍為’abcxy’

>>> print('abcxyz'.endswith('xyz',0,5))
False
>>> print('abcxyz'.endswith('xyz',0,6))
True

suffix是元組(tuple)時,只要tuple中任意一個元素滿足endswith的條件,就返回True。

tuple中的’xyz’滿足條件

>>> print('abcxyz'.endswith(('ab','xyz')))
True

tuple中’ab’和’xy’都不滿足條件

>>> print('abcxyz'.endswith(('ab','xy')))
False

tuple中的’z’滿足條件

>>> print('abcxyz'.endswith(('ab','xy','z')))
True

4.3 find,rfind和index,rindex

S.find(sub[, start[, end]])
S.rfind(sub[, start[, end]])¶
S.index(sub[, start[, end]])
S.rindex(sub[, start[, end]])

find()搜尋字串S中是否包含子串sub,如果包含,則返回sub的索引位置,否則返回"-1"。可以指定起始start和結束end的搜尋位置。
index()和find()一樣,唯一不同點在於當找不到子串時,丟擲ValueError錯誤。
rfind()則是返回搜尋到的最右邊子串的位置,如果只搜尋到一個或沒有搜尋到子串,則和find()是等價的。
同理rindex()。
例如:

>>> print('abcxyzXY'.find('xy'))
3
>>> print('abcxyzXY'.find('Xy'))
-1
>>> print('abcxyzXY'.find('xy',4))
-1

>>> print('xyzabcabc'.find('bc'))
4
>>> print('xyzabcabc'.rfind('bc'))
7

>>> print('xyzabcabc'.rindex('bcd'))
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
ValueError: substring not found

可以使用in操作符來判斷字串S是否包含子串sub,它返回的不是索引位置,而是布林值。

>>> 'xy' in 'abxycd'
True
>>> 'xyz' in 'abxycd'
False

5.替換

5.1 replace

S.replace(old, new[, count])
將字串中的子串old替換為new字串,如果給定count,則表示只替換前count個old子串。如果S中搜索不到子串old,則無法替換,直接返回字串S(不建立新字串物件)。

>>> print('abcxyzoxy'.replace('xy','XY'))
abcXYzoXY
>>> print('abcxyzoxy'.replace('xy','XY',1))
abcXYzoxy
>>> print('abcxyzoxy'.replace('mn','XY',1))
abcxyzoxy

5.2 expandtabs

S.expandtabs(N)
將字串S中的\t替換為一定數量的空格。預設N=8。
注意,expandtabs(8)不是將\t直接替換為8個空格。例如’xyz\tab’.expandtabs()會將\t替換為5個空格,因為"xyz"佔用了3個字元位。
另外,它不會替換換行符(\n或\r)時。
例如:

>>> '01\t012\t0123\t01234'.expandtabs(4)
'01 012 0123 01234'

>>> '01\t012\t0123\t01234'.expandtabs(8)
'01  012  0123 01234'

>>> '01\t012\t0123\t01234'.expandtabs(7)
'01  012 0123 01234'

>>> print('012\t0123\n01234'.expandtabs(7))
012 0123
01234

5.3 translate和maketrans

S.translate(table)
static str.maketrans(x[, y[, z]])
str.maketrans()生成一個字元一 一對映的table,然後使用translate(table)對字串S中的每個字元進行對映。
如果你熟悉Linux,就知道tr命令,translate()實現的功能和tr是類似的。
例如,現在想要對"I love fairy"做一個簡單的加密,將裡面部分字元都替換為數字,這樣別人就不知道轉換後的這句話是什麼意思。

>>> in_str='abcxyz'
>>> out_str='123456'

maketrans()生成對映表

>>> map_table=str.maketrans(in_str,out_str)

使用translate()進行對映

>>> my_love='I love fairy'
>>> result=my_love.translate(map_table)
>>> print(result)
I love f1ir5

注意,maketrans(x[, y[, z]])中的x和y都是字串,且長度必須相等。
如果maketrans(x[, y[, z]])給定了第三個引數z,這這個引數字串中的每個字元都會被對映為None。
例如,不替換"o"和"y"。

>>> in_str='abcxyz'
>>> out_str='123456'
>>> map_table=str.maketrans(in_str,out_str,'ay')
>>> my_love='I love fairy'
>>> result=my_love.translate(map_table)
>>> print(result)
I love fir

6.分割

6.1 partition和rpartition

S.partition(sep)
S.rpartition(sep)

搜尋字串S中的子串sep,並從sep處對S進行分割,最後返回一個包含3元素的元組:sep左邊的部分是元組的第一個元素,sep自身是元組的二個元素,sep右邊是元組的第三個元素。
partition(sep)從左邊第一個sep進行分割,rpartition(sep)從右邊第一個sep進行分割。
如果搜尋不到sep,則返回的3元素元組中,有兩個元素為空。partition()是後兩個元素為空,rpartition()是前兩個元素為空。
例如:

只搜尋到一個sep時,兩者結果相同

>>> print('abcxyzopq'.partition('xy'))
('abc', 'xy', 'zopq')
>>> print('abcxyzopq'.rpartition('xy'))
('abc', 'xy', 'zopq')

搜尋到多個sep時,分別從左第一個、右第一個sep分割

>>> print('abcxyzxyopq'.partition('xy'))
('abc', 'xy', 'zxyopq')
>>> print('abcxyzxyopq'.rpartition('xy'))
('abcxyz', 'xy', 'opq')

搜尋不到sep

>>> print('abcxyzxyopq'.partition('xyc'))
('abcxyzxyopq', '', '')
>>> print('abcxyzxyopq'.rpartition('xyc'))
('', '', 'abcxyzxyopq')

6.2 split、rsplit和splitlines

S.split(sep=None, maxsplit=-1)
S.rsplit(sep=None, maxsplit=-1)
S.splitlines([keepends=True])

都是用來分割字串,並生成一個列表。
split()根據sep對S進行分割,maxsplit用於指定分割次數,如果不指定maxsplit或者給定值為"-1",則會從做向右搜尋並且每遇到sep一次就分割直到搜尋完字串。如果不指定sep或者指定為None,則改變分割演算法:以空格為分隔符,且將連續的空白壓縮為一個空格。
rsplit()和split()是一樣的,只不過是從右邊向左邊搜尋。
splitlines()用來專門用來分割換行符。雖然它有點像split(’\n’)或split(’\r\n’),但它們有些區別,見下文解釋。
首先是split()的示例分析(rsplit()示例略)。

sep為單個字元時

>>> '1,2,3'.split(',')
['1', '2', '3']

>>> '1,2,3'.split(',',1)
['1', '2,3']  # 只分割了一次

>>> '1,2,,3'.split(',')
['1', '2', '', '3'] # 不會壓縮連續的分隔符

>>> '<hello><><world>'.split('<')
['', 'hello>', '>', 'world>']

sep為多個字元時

>>> '<hello><><world>'.split('<>')
['<hello>', '<world>']

不指定sep時

>>> '1 2 3'.split()
['1', '2', '3']

>>> '1 2 3'.split(maxsplit=1)
['1', '2 3']

>>> '  1  2  3  '.split()
['1', '2', '3']

>>> '  1  2  3 \n'.split()
['1', '2', '3']

顯式指定sep為空格、製表符、換行符時

>>> ' 1 2 3 \n'.split(' ')
['', '1', '', '2', '', '3', '', '\n']

>>> ' 1 2 3 \n'.split('\t')
[' 1 2 3 \n']

>>> ' 1 2\n3 \n'.split('\n')
[' 1 2', '3 ', ''] # 注意列表的最後一項''

>>> ''.split('\n')
['']

再是splitlines()的示例分析。
splitlines()中可以指定各種換行符,常見的是\n、\r、\r\n。如果指定keepends為True,則保留所有的換行符。

>>> 'ab c\n\nde fg\rkl\r\n'.splitlines()
['ab c', '', 'de fg', 'kl']

>>> 'ab c\n\nde fg\rkl\r\n'.splitlines(keepends=True)
['ab c\n', '\n', 'de fg\r', 'kl\r\n']

將split()和splitlines()相比較一下:

split()

>>> ''.split('\n')
['']      # 因為沒換行符可分割

>>> 'One line\n'.split('\n')
['One line', '']

splitlines()

>>> "".splitlines()
[]       # 因為沒有換行符可分割

>>> 'Two lines\n'.splitlines()
['Two lines']

7.join

S.join(iterable)
將可迭代物件(iterable)中的字串使用S連線起來。注意,iterable中必須全部是字串型別,否則報錯。
如果你還是python的初學者,還不知道iterable是什麼,卻想來看看join的具體語法,那麼你可以暫時將它理解為:字串string、列表list、元組tuple、字典dict、集合set。
例如:
字串

>>> L='python'
>>> '_'.join(L)
'p_y_t_h_o_n'

元組

>>> L1=('1','2','3')
>>> '_'.join(L1)
'1_2_3'

集合。注意,集合無序。

>>> L2={'p','y','t','h','o','n'}
>>> '_'.join(L2)
'n_o_p_h_y_t'

列表

>>> L2=['py','th','o','n']
>>> '_'.join(L2)
'py_th_o_n'

字典

>>> L3={'name':"malongshuai",'gender':'male','from':'China','age':18}
>>> '_'.join(L3)
'name_gender_from_age'

iterable參與迭代的部分必須是字串型別,不能包含數字或其他型別。

>>> L1=(1,2,3)
>>> '_'.join(L1)
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
TypeError: sequence item 0: expected str instance, int found

以下兩種也不能join。

>>> L1=('ab',2)
>>> L2=('AB',{'a','cd'})

8.修剪:strip、lstrip和rstrip

S.strip([chars])
S.lstrip([chars])
S.rstrip([chars])
分別是移除左右兩邊、左邊、右邊的字元char。如果不指定chars或者指定為None,則預設移除空白(空格、製表符、換行符)。
唯一需要注意的是,chars可以是多個字元序列。在移除時,只要是這個序列中的字元,都會被移除。
例如:
移除單個字元或空白。

>>> '  spacious  '.lstrip()
'spacious  '
 
>>> '  spacious  '.rstrip()
'  spacious'
 
>>> 'spacious  '.lstrip('s')
'pacious  '
 
>>> 'spacious'.rstrip('s')
'spaciou'

2.移除字元中的字元。

>>> print('www.example.com'.lstrip('cmowz.'))
example.com
>>> print('wwwz.example.com'.lstrip('cmowz.'))
example.com
>>> print('wwaw.example.com'.lstrip('cmowz.'))
aw.example.com
>>> print('www.example.com'.strip('cmowz.'))
'example'

由於www.example.com的前4個字元都是字元序列cmowz.中的字元,所以都被移除,而第五個字元e不在字元序列中,所以修剪到此結束。同理wwwz.example.com
wwaw.example.com中第3個字元a不是字元序列中的字元,所以修剪到此結束。