1. 程式人生 > >目前最快的Python爬蟲速成法!兩步即可學會

目前最快的Python爬蟲速成法!兩步即可學會

這個資訊傳遞非常快的時代, 學會資訊和資料快速採集和爬取都是非常必要的。
資料群827502865
python web scraper可以說是這個時代的火箭頭了,設定簡單,非常高效,採集咪蒙文章標題僅需2分鐘,採集58同城5000條租房資訊也就5分鐘而已。
Web scraper是google強大外掛庫中非常強大的一款資料採集外掛,有強大的反爬蟲能力,只需要在外掛上簡單地設定好,可以快速抓取知乎、簡書、豆瓣、大眾、58等大型、中型、小型的90%以上的網站,包括文字、圖片、表格等內容,最後快速匯出csv格式檔案。Google官方對webscraper給出的說明是:使用我們的擴充套件,您可以建立一個計劃(sitemap),一個web站點應該如何遍歷,以及應該提取什麼。使用這些sitemaps,Web刮刀將相應地導航站點並提取所有資料。稍後可以將剪貼資料匯出為CSV。Webscraperk課程將會完整介紹流程介紹,用知乎、簡書等網站為例介紹如何採集文字、表格、多元素抓取、不規律分頁抓取、二級頁抓取、動態網站抓取,以及一些反爬蟲技術等全部內容。我也將在近期開始web scraper課程,web scraper的安裝Web scraper是google瀏覽器的拓展外掛,它的安裝和其他外掛的安裝是一樣的。
如果無法下載webscraper或其他python資料,可以聯絡小編。
1、準備工作: Python、scrapy、一個IDE編譯器
隨便建一個工作目錄,然後用命令列建立一個工程,工程名為miao,可以替換為你喜歡的名字。
scrapy startproject miao
隨後你會得到如下的一個由scrapy建立的目錄結構

在spiders資料夾中建立一個python檔案,來作為爬蟲的指令碼。
內容如下:
import scrapy
class NgaSpider(scrapy.Spider):
name = “NgaSpider”
host = “http://bbs.ngacn.cc/

start_urls是我們準備爬的初始頁

start_urls = [
http://bbs.ngacn.cc/thread.php?fid=406”,
]

這個是解析函式,如果不特別指明的話,scrapy抓回來的頁面會由這個函式進行解析。

對頁面的處理和分析工作都在此進行,這個示例裡我們只是簡單地把頁面內容打印出來。資料Q群827502865

def parse(self, response):
print response.body
2、跑一個試試?
如果用命令列的話就這樣:
cd miao
scrapy crawl NgaSpider
你可以看到爬蟲君已經把你壇星際區第一頁打印出來了,當然由於沒有任何處理,所以混雜著html標籤和js指令碼都一併打印出來了。

資料Q群827502865
以下是幾個比較重要的地方:
scrapy的架構:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html
xpath語法:
http://www.w3school.com.cn/xpath/xpath_syntax.asp


Pipeline管道配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/item-pipeline.html
Middleware中介軟體的配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html
settings.py的配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html

python是一個世界的大門,我相信在這裡面,你一定能找到你喜歡的,人生程式。