1. 程式人生 > >python爬蟲 ----文章爬蟲(合理處理字符串中的 ........)

python爬蟲 ----文章爬蟲(合理處理字符串中的 ........)

code 分享 png bsp str sleep htm page 影響

import urllib.request
import re
import time

num=input("輸入日期(20150101000):")



def openpage(url):
    html=urllib.request.urlopen(url)
    
    page=html.read().decode(gb2312)
    
    return page

def getpassage(page):
    passage = re.findall(r<p class="MsoNormal" align="left">([\s\S]*)</FONT>
,str(page)) passage1=re.sub("</?\w+[^>]*>", "", str(passage)) passage2=passage1.replace(\\r, \r).replace(\\n, \n).replace(\\t,\t).replace(],‘‘).replace([,‘‘).replace(&nbsp;, ) print(passage2) with open(load,a,encoding=utf-8) as f: f.write(
"-----------------------------"+"日期"+str(date)+"---------------------------------\n"+passage2+"----------------------------------------------------\n") for i in range(1,32): date=int(num)+int(i) print(date) load="C:/Users/home/Desktop/新建文本文檔.txt" url=("http://www.hbuas.edu.cn/news/xyxw/news_
"+str(date)+".htm")
  
try: page=openpage(url) getpassage(page) print(""+str(i)+"號有文章,----已下載") except: print(""+str(i)+"號無文章。") time.sleep(2)

寫了一個爬學校新聞網的爬蟲,

主要涉及 re正則 urllib.request 文件的寫入

在爬取文章時通常會返回很多影響美感的代碼

如下:

技術分享

優化:

兩次正則

passage = re.findall(r‘<p align="left">([\s\S]*)</FONT>‘,str(page))       #第一次匹配字段
    
passage1=re.sub("</?\w+[^>]*>", "", str(passage))              # 第二次去掉html標簽

替換

passage2=passage1.replace(‘\\r‘, ‘\r‘).replace(‘\\n‘, ‘ \n‘).replace(‘\\t‘,‘\t‘).replace(‘]‘,‘‘).replace(‘[‘,‘‘).replace(‘&nbsp;‘,‘   ‘)

效果如下:

技術分享

over!

python爬蟲 ----文章爬蟲(合理處理字符串中的\n\t\r........)