1. 程式人生 > >初窺爬蟲

初窺爬蟲

get kit 5.0 www. soft 錯誤 cor for pan

在網上看到一篇能夠爬圖片的程序想自己也試一試,一天的大部分時間都在調試爬蟲所需要的環境。

1)Beautiful Soup模塊

  Beautiful Soup 是一個可以從 HTML 或 XML 文件中提取數據的 Python 庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

  Beautiful Soup的安裝可使用Python自帶的easy_install和pip。其中pip是需要自己安裝,由於安裝過程較繁瑣就沒有嘗試,只是使用了自帶的easy_install進行安裝。

  安裝過程如下:

  【第一步】下載官方安裝包 beautifulsoup 4-4.4.1

   下載地址:https://www.crummy.com/software/BeautifulSoup/bs4/download/4.4/

   打開後,選擇第二個

    技術分享

   將下載文件解壓到python的安裝下面

  【第二步】打開CMD,用CD命令進入到Beautiful Soup的解壓目錄下:

  例:cd c:\python27\beautifulsoup4-4.4.1

  技術分享出現這個提示表示已經在該目錄下

  【第三步】運行安裝指令

  1.python setup.py build 輸入完成按回車等待

  2.python setup.py install

  【第四步】檢查安裝是否成功

  到Python IDE下輸入語句:

1 from bs4 import BeautifulSoup

  如果沒有報錯,恭喜你成功安裝。

2)copy的程序

# -*- coding:utf8 -*-
# Python:         2.7.8
# Platform:       Windows
# Author:         wucl
# Version:        1.0
# Program:        自動下載妹子圖的圖片並保存到本地
import urllib2, os, os.path, urllib, random
from bs4 import BeautifulSoup
 
def get_soup(url): """ 獲取網站的soup對象 """ my_headers = [ Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30, Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0, Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C), Opera/9.80 (Windows NT 5.1; U; zh-cn) Presto/2.9.168 Version/11.50, Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1, Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET4.0C)] header={"User-Agent":random.choice(my_headers)} req=urllib2.Request(url, headers=header) html=urllib2.urlopen(req).read() soup=BeautifulSoup(html) return soup def get_pages(url): """ 獲取妹子圖網站的頁數 """ soup=get_soup(url) nums=soup.find_all(a,class_=page-numbers) pages=int(nums[-2].text) return pages def get_menu(url): """ 獲取頁面的所有妹子圖主題的鏈接名稱和地址,記入列表 """ soup=get_soup(url) menu=[] menu_list=soup.find_all(a,target=_blank) for i in menu_list: result=i.find_all(img,class_=lazy) if result: name=result[0][alt] address=i[href] menu.append([name,address]) return menu def get_links(url): """ 獲取單個妹子圖主題一共具有多少張圖片 """ soup=get_soup(url) all_=soup.find_all(a) nums=[] for i in all_: span=i.find_all(span) if span: nums.append(span[0].text) return nums[-2] def get_image(url,filename): """ 從單獨的頁面中提取出圖片保存為filename """ soup=get_soup(url) image=soup.find_all(p)[0].find_all(img)[0][src] urllib.urlretrieve(image,filename) def main(page): """ 下載第page頁的妹子圖 """ print u正在下載第 %d 頁 % page page_url=url+/page/+str(page) menu=get_menu(page_url) print u@@@@@@@@@@@@@@@@第 %d 頁共有 %d 個主題@@@@@@@@@@@@@@@@ %(page,len(menu)) for i in menu: dir_name=os.path.join(MeiZiTu,i[0]) if not os.path.exists(dir_name): os.mkdir(dir_name) pic_nums=int(get_links(i[1])) print u\n\n\n*******主題 %s 一共有 %d 張圖片******\n %(i[0],pic_nums) for pic in range(1,pic_nums+1): basename=str(pic)+.jpg filename=os.path.join(dir_name,basename) pic_url=i[1]+/+str(pic) if not os.path.exists(filename): print u......%s % basename, get_image(pic_url,filename) else: print filename+u已存在,略過 if __name__==__main__: url=http://www.mzitu.com/ pages=get_pages(url) print u***************妹子圖一共有 %d 頁****************** %pages if not os.path.exists(MeiZiTu): os.mkdir(MeiZiTu) page_start=input(uInput the first page number:\n) page_end=input(uInput the last page number:\n) if page_end>page_start: for page in range(page_start,page_end): main(page) elif page_end==page_start: main(page_end) else: print u"輸入錯誤,起始頁必須小於等於結束頁\n"

初窺爬蟲