1. 程式人生 > >python 爬取網站獲得一個網站的所有連結

python 爬取網站獲得一個網站的所有連結

第一步,找個網站 我這裡就找行業裡比較有名的收錄網站的網站 酷113網

第二步,開啟www.ku113.com 按下滑鼠右鍵 點選檢視原始碼

第三步,把原始碼複製下來 儲存成一個檔案 命名 ku113.html

第四步, 執行以下python 程式 我這裡用的py 2.7.13版本

#coding:utf-8
import re
from bs4 import BeautifulSoup

with open(‘ku113.html’,‘r’) as f:
data = f.read()
#print (data)
result = re.findall(r"(?<=href=").+?(?=")|(?<=href=’).+?(?=’)",data)
#print result

for each in result:
print (each)