1. 程式人生 > >Website Scraping with Python 閱讀筆記

Website Scraping with Python 閱讀筆記

第一章

  工程涉及的基本工具:requests, beautiful soup, scrapy。

  法規與技術約定:read the Terms & Conditions and the Privacy Policy  of the website。讓不讓爬?
          See the robots.txt file 。哪些可以爬?
          website’s HTML code。目標網頁涉及什麼技術?

          taskand the website's structure.。該選什麼工具?

  Terms and Robots重點讀:scraper/scraping
                crawler/crawling
                   bot
                   spider
                 program

  網頁技術:使用python的builtwith庫探查網頁使用的技術

  谷歌瀏覽器開發者工具:勘察網頁

  工具選擇:small project(簡單頁面、沒有涉及js的) Beautiful Soup + requests or  use Scrapy。

       有大量資料的,追求效能的  Scrapy + Beautiful Soup。

       面對AJAX技術就要打電話搖人了,Selenium and Portia 出場。