1. 程式人生 > >Python工具 | 9個用來爬取網絡站點的 Python 庫

Python工具 | 9個用來爬取網絡站點的 Python 庫

解析器 交互 als spider 分布式 協作 環境 python開發 簡單

1??Scrapy

一個開源和協作框架,用於從網站中提取所需的數據。 以快速,簡單,可擴展的方式。

  • 官網

2??cola

一個分布式爬蟲框架。

  • GitHub

3??Demiurge

基於 PyQuery 的爬蟲微型框架。

  • 官網

4??feedparser

通用 feed 解析器。

  • 官網

5??Grab

Grab 是一個用於構建 Web scraper 的 python 框架。 使用 Grab,您可以構建各種復雜性的 Web scraper,從簡單的5行腳本到處理數百萬個 Web 頁面的復雜異步網站爬蟲。 Grab 提供用於執行網絡請求和處理所接收內容的 API。 與 HTML 文檔的 DOM 樹交互。

  • 官網

6??MechanicalSoup

用於自動和網絡站點交互的 Python 庫。

  • GitHub

7??portia

Scrapy 可視化爬取。允許你在不需要任何編程知識的情況下直觀地抓取網站。 使用 Portia 可以註釋一個網頁以識別您想要提取的數據,Portia 將根據這些註釋了解如何從類似頁面中抓取數據。

  • GitHub

8??pyspider

一個強大的爬蟲系統。

  • 官網

9??RoboBrowser

一個簡單的,Python 風格的庫,用來瀏覽網站,而不需要一個獨立安裝的瀏覽器。

  • 官網

如果大家想找一個Python學習環境,可以加入我們的Python學習群: 784758214 ,自己是一名高級python開發工程師,這裏有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、人工智能、機器學習等。送給正在學習python的小夥伴!每天會準時的講一些項目實戰案例,分享一些學習的方法和需要註意的小細節,,這裏是python學習者聚集地

點擊:加入

Python工具 | 9個用來爬取網絡站點的 Python 庫