1. 程式人生 > >爬蟲入門筆記

爬蟲入門筆記

collect head 有一個 cnblogs ted col https 指定 爬蟲

爬蟲,在網絡中爬行的一只蜘蛛,如遇到資源,就會按指定的規則抓取下來

爬蟲爬取HTML代碼後,通過分析和過濾這些HTML代碼,實現對圖片,文字等資源的獲取

URL的格式由三部分組成:

  1、第一部分是協議

  2、第二部分是存儲該資源的主機IP和端口

  3、第三部分是資源的具體地址,如目錄和文件名

爬蟲爬取數據時必須有一個目標URL才可以獲取數據,因此,它是爬蟲獲取數據根本

import re
import urllib.request
import urllib

from collections import deque

queue = deque()
visited = set()

url 
= https://jecvay.com/ queue.append(url) cnt = 0 while queue: url = queue.pop() visited.add(url) print(Count: + str(cnt) + visiting <--- + url) cnt += 1 urlop = urllib.request.urlopen(url) if html not in urlop.getheader(Content-Type): continue try: data
= urlop.read().decode(utf-8) except: continue linkre = re.compile(rhref="(.+?)") for x in linkre.findall(data): if http in x and x not in visited: queue.append(x) print(add---> + x)

爬蟲入門筆記