1. 程式人生 > >"Web Scraping with Python"筆記(一)

"Web Scraping with Python"筆記(一)

數據類型 大小 不存在 所有者 不能 存在 跟蹤 技術 背景

1. 合法性:抓取的數據用於個人使用,不存在問題;數據用於轉載,需註意抓取的數據類型。

一般情況,抓取的真實數據(營業地址,電話清單等)允許轉載。而原創數據(比如意見和評論)受版權限制不能轉載。

2. 背景調研:第一,檢查robots.txt;第二,檢查網站地圖sitemap; 第三,估算網站大小(site:aws.amazon.com);第四,識別網站所用技術(builtwith模塊);第五,尋找網站所有者。

3. 3種常見方法:爬取網站地圖;遍歷每個網頁的的數據庫ID;跟蹤網頁鏈接。

"Web Scraping with Python"筆記(一)