1. 程式人生 > >Python爬蟲爬取一篇韓寒新浪部落格

Python爬蟲爬取一篇韓寒新浪部落格

網上看到大神對Python爬蟲爬到很多有用的資訊,覺得很厲害,突然對想學Python爬蟲,雖然自己沒學過Python,但在網上找了一些資料看了一下,看到爬取韓寒新浪部落格的視訊,共三集,第一節講爬取一篇部落格,第二節講爬取一頁部落格,第三集講爬取全部部落格。

看了視訊,也留下了程式碼。

爬蟲第一步:檢視網頁原始碼:

第一篇部落格的程式碼為藍底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>

對比其他部落格的程式碼,找出公共部分“< title=‘’ ‘href=’,'.html'

程式碼為:

# -*- coding : -utf-8 -*-
import urllib
str0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《論電影的七個元素》——關於我對電…</a>'
title = str0.find(r'<a title')
#print title
href = str0.find(r'href=')
#print href
html = str0.find(r'.html')
#print html

url = str0[href + 6:html + 5]
print url

content = urllib.urlopen(url).read()
#print content

filename = url[-26:]
print filename
open(filename+'.html','w').write(content)
print '下載成功!'

執行結果:


儲存的檔案: