1. 程式人生 > >爬取糗事百科文欄位子,(2016年10月22日可用)

爬取糗事百科文欄位子,(2016年10月22日可用)

簡單的利用bs4提取了一些東西,中途嘗試了網上的多個版本,自己簡單的模仿了一下。

主要提取部分:

<a href="/article/117808662" target="_blank" class='contentHerf' >
<div class="content">



<span>偶遇小朋友玩家家酒!<br/>一小姑娘說:誰要扮演老公的?只見小男孩們紛紛舉起小手:我、我、我……<br/>好,這是你的搓衣板和尿壺,你就跪在這上面手上拖著尿壺,我在旁邊化妝</span>


</div>
</a>

找到相應class提取span即可
from urllib.request import urlopen ,Request
from bs4 import BeautifulSoup
import re
import time

x=1
def gogogo(page):
    global x
    url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"
    H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
    req = Request(url=url,headers=H)
    res = urlopen(req)
    H = BeautifulSoup(res,"html.parser")
    t = H.findAll('a',{"class":re.compile("content")})

    for i in t:
        lists = i.find('span')
        f.write(str(x)+":")
        x=x+1
        f.write(lists.get_text())
        f.write("\n\n")
    time.sleep(1)

if __name__ =="__main__":
    f = open("d.txt",'a',encoding='utf-8')
    for i in range(1,4):
        gogogo(i)
    print('Good Job!')
    f.close()
程式程式碼比較簡單,需要模擬一下瀏覽器訪問即可,正在學習計算機網路,第10行的內容可以根據自己的瀏覽器進行替換,學一下開發者工具還是很重要的。