1. 程式人生 > >在Python中使用正則表達式去掉字符串裏的html標簽

在Python中使用正則表達式去掉字符串裏的html標簽

class tab import pytho 設置 裏的 highlight abc dal

有時候會獲得一些帶html標簽的字符串,需要把html標簽去掉,獲得幹凈的字符串,這時候可以使用正則表達式。

代碼如下:

import re
htmeString = ‘‘‘
<ul id="TopNav">
<li><a href="/EditPosts.aspx" id="TabPosts">隨筆</a></li>
<li><a href="/EditArticles.aspx" id="TabArticles">文章</a></li>
<li><a href="/EditDiary.aspx" id="TabDiary">日記</a></li>
<li><a href="/Feedback.aspx" id="TabFeedback">評論</a></li>
<li><a href="/EditLinks.aspx" id="TabLinks">鏈接</a></li>
<li id="GalleryTab"><a href="/EditGalleries.aspx" id="TabGalleries">相冊</a></li>
<li id="FilesTab"><a href="Files.aspx" id="TabFiles">文件</a></li>
<li><a href="/Configure.aspx" id="TabConfigure">設置</a></li>
<li><a href="/Preferences.aspx" id="TabPreferences">選項</a></li>
</ul>‘‘‘
# 方法 1 pre = re.compile(‘>(.*?)<‘) s1 = ‘‘.join(pre.findall(htmlString))
print(s1) # ‘隨筆文章日記評論鏈接相冊文件設置選項‘
# 方法 2 s2 = re.sub(r‘<.*?>‘,‘‘,htmlString)
print(s2) # ‘\n\n隨筆\n文章\n日記\n評論\n鏈接\n相冊\n文件\n設置\n選項\n\n‘

# 再用str.replace()函數去掉‘\n‘
s2 = s2.replace(‘\n‘,‘‘)
print(s2) # ‘隨筆文章日記評論鏈接相冊文件設置選項‘

完。

在Python中使用正則表達式去掉字符串裏的html標簽