1. 程式人生 > >跟著派森學scrapy框架之什麼是scrapy

跟著派森學scrapy框架之什麼是scrapy

十個爬蟲九個python寫,九個python爬蟲全部由scrapy寫。社會上在招聘爬蟲工程師時,百分之百會需要掌握scrapy爬蟲框架。但是scrapy十個什麼東西你知道嗎?

什麼是scrapy

我們先看百科詞條
scrapy介紹
Scrapy是我們熟知的爬蟲框架,我們用scrapy框架來獲取網際網路上的各種資訊,然後再對這些資訊資料清洗、歸一化。這樣的資料我們後面才能用來進行資料分析、資料探勘、人工智慧等操作。所以說,Scrapy是學習大資料的入門技能。

scrapy與requests的區別

scrapy是封裝起來的框架,他包含了下載器,解析器,日誌及異常處理,基於多執行緒, twisted的方式處理,對於固定單個網站的爬取開發,有優勢,但是對於多網站爬取 100個網站,併發及分散式處理方面,不夠靈活,不便調整與括展。request 是一個HTTP庫, 它只是用來,進行請求,對於HTTP請求,他是一個強大的庫,下載,解析全部自己處理,靈活性更高,高併發與分散式部署也非常靈活,對於功能可以更好實現。

scrapy的優勢是什麼?

吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。scrapy的特點是Python開發的一個快速、高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。
同時scrapy 是非同步的, 吞吐量很高。而且scrapy可高度自定義,生成一個爬蟲檔案之後,只需要寫邏輯就行了,一個爬蟲專案也就幾個小時就可以完成。但是如果自己手動實現的話,則需要大量時間去寫業務程式碼。

如何學習scrapy

框架涉及的東西非常多,並且在沒有人指導時十分難學。最好的學習資料是官方的幫助文件,如果自己一頭扎進去亂學一通的話,很容易就從入門到放棄了。

當然,你現在又有了其他的選擇,可以跟著我來入門scrapy框架。後續我會參考官方文件編寫一個入門的系列教程。

scrapy幫助文件:https://scrapy.org/