1. 程式人生 > >python分布式爬蟲搭建開發環境(二)

python分布式爬蟲搭建開發環境(二)

back col 性能 16px 動態網頁 網頁 ebs {} 常見類

scrapy 優勢:

  1. resquests和Beautifulsoup都是庫,scrapy是框架
  2. scrapy框架可以加入前兩項
  3. scrapy基於twisted,性能是最大的優勢
  4. scrapy方便擴展,提供很多內置功能
  5. 內置的css和xpath selector非常方便,比Beautifulsoup快幾十倍

常見類型網頁:靜態網頁 動態網頁 、 webserbice(restapi)


正則表達式:

  1. ^ 以xx開頭 $ 以xx結尾 * 0次以及以上1次及以上 + 一次及以上 {} n次 {m,} m次以上 {m,n} n次m |
  2. [][^]
    不是這個開頭 [a-z] a-z任意選一個 .
  3. \s 空格字符 \S 飛空格字符 \w 字母 \W 非字母
  4. [\u4e00-\u9FA5] 中文 () 取括號也表示優先級和元祖 \d 數字

python分布式爬蟲搭建開發環境(二)