1. 程式人生 > >團隊-爬蟲豆瓣top250項目-模塊開發過程

團隊-爬蟲豆瓣top250項目-模塊開發過程

style 托管 bsp 豆瓣 index urn 構造 其他 range

項目托管平臺地址:https://github.com/gengwenhao/GetTop250.git

開發模塊功能:
"get_urls()生成前250電影的頁面地址"功能,開發時間:1天(小時),實現了"前250電影的頁面地址生成並封裝傳遞給其他模塊",實現過程是

python def get_urls(): base_url = r https://movie.douban.com/top250?start=%s&filter= urls = [] for i in range(0, 11): index = i * 25 url = base_url % (index) urls.append(url) return
urls

通過分析地址的規則, 構造get的filter傳參
遇到的問題及問題解決方法:
開發電影地址獲取時遇到了"無法請求到頁面"的問題,最終使用"在請求頭加入firefox瀏覽器標識"方法解決了這個問題

    html = requests.get(url, headers=HEADERS)
    html.encoding = "utf8"

團隊-爬蟲豆瓣top250項目-模塊開發過程