1. 程式人生 > >讀取網頁的方法-爬蟲學習

讀取網頁的方法-爬蟲學習

方法 def nbsp read urn div www 一行 處理

1、讀取全部網頁

1 #encoding:utf-8
2 
3 import urllib2
4 def download1(url):
5     return urllib2.urlopen(url).read() #讀取全部網頁
6 
7 url="http://www.baidu.com" #urlopen只能處理http 不能處理https
8 print download3(url)

2、讀取每一行的數據,壓入列表

1 #encoding:utf-8
2 
3 import urllib2
4 
5 def download2(url):
6 return urllib2.urlopen(url).readlines() #讀取每一行的數據,壓入列表 7 8 url="http://www.baidu.com" #urlopen只能處理http 不能處理https 9 print download2(url)

3、網頁抽象為文件

 1 #encoding:utf-8
 2 import urllib2
 3 
 4 def download3(url):
 5     response=urllib2.urlopen(url)#網頁抽象為文件
 6     while True:
 7         line=response.readline()#
讀取每一行 8 if not line: 9 break 10 print line 11 12 url="http://www.baidu.com" #urlopen只能處理http 不能處理https 13 print download3(url)

讀取網頁的方法-爬蟲學習