【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

阿新 • • 發佈：2018-12-21

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。

思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src）

from bs4 import BeautifulSoup
import urllib.request
import requests
import os
import re


# 儲存文章裡面的圖片
def down(url, num):

    # 獲取網頁
    response = urllib.request.urlopen(url)
    html = response.read().decode('utf-8')  # 編碼格式gb2312,utf-8,GBK
    html_string = str(html)  # 轉換成string，可以直接向資料庫新增

    soup = BeautifulSoup(html_string, "html.parser")  # 解析網頁標籤

    # 匹配抓取區域
    # 該div的class由img和aImg兩種，要判斷一下
    pid = soup.findAll('div', {"class": "img"})
    if len(pid) == 0:
        pid = soup.findAll('div', {"class": "aImg"})
        pass

    print(pid)

    pid2 = soup.find("article").find("h1")  # 本篇文章的標題
    # 清除html標籤
    pattern = re.compile(r'<[^>]+>', re.S)
    txt = pattern.sub('', str(pid2))
    print(txt)

    for img_html in pid:
        img_src = img_html.find('img')['src']

        root = "D:/python/do/spider/guojiadili/" + txt + "/"  # 沒有最後一級資料夾目錄則會自動建立
        img_name = img_src.split("/")[-1].replace('@!rw9', '').replace('@!rw14', '').replace('@!rw7', '').replace('@!rw8', '').replace('@!rw10', '').replace('@!rw11', '').replace('@!rw12', '').replace('@!rw13', '').replace('@!rw6', '').replace('@!rw5', '').replace('@!rw4', '').replace('@!rw3', '').replace('@!rw2', '').replace('@!rw1', '').replace('@!rw15', '').replace('@!rw16', '').replace('@!rw17', '').replace('@!rw18', '').replace('@!rw19', '')  # 去除圖片字尾後面的特殊字串，得到真實圖片名
        print(img_name)
        path = root + img_name  # 儲存檔案的名字

        # 儲存圖片到本地
        try:
            if not os.path.exists(root):
                os.mkdir(root)
            if not os.path.exists(path):
                r = requests.get(img_src)
                r.raise_for_status()
                # 使用with語句可以不用自己手動關閉已經開啟的檔案流
                with open(path, "wb") as f:  # 開始寫檔案，wb代表寫二進位制檔案
                    f.write(r.content)

                num += 1
                print("儲存檔案成功=" + str(num))
            else:
                print("檔案已存在")
        except Exception as e:
            print("檔案儲存失敗:" + str(e))

        pass

    pass


# down("http://www.dili360.com//article/p549a356731fc659.htm", 0)


# 解析文章目錄中所有的文章地址
def list(url, number):
    # 獲取網頁
    response = urllib.request.urlopen(url)
    html = response.read().decode('utf-8')  # 編碼格式gb2312,utf-8,GBK
    html_string = str(html)  # 轉換成string，可以直接向資料庫新增

    soup = BeautifulSoup(html_string, "html.parser")  # 解析網頁標籤

    # 匹配抓取區域
    # pid = soup.find(attrs={"id": "content"})
    pid = soup.findAll('div', {"class": "thumb-img"})
    print(pid)

    print("第" + str(number) + "頁")

    for a_html in pid:
        a_href = a_html.find('a')['href']
        print(a_href)

        new_url = "http://www.dili360.com" + a_href  # 文章地址
        print(new_url)
        print(type(new_url))

        down(new_url, 0)  # 獲取單個列表中單個文章的圖片

        pass
    pass


# list('http://www.dili360.com/Travel/sight/20194/1.htm')


# 解析有多少個文章目錄
page = 1  # 起始目錄標號
while page <= 14:  # 最大目錄標號
    list('http://www.dili360.com/Travel/sight/20247/' + str(page) + '.htm', 1)  # 單個目錄地址
    page += 1
    pass
else:
    print("所有文章儲存完畢！")

提示，迴圈sight/xxxxx.htm可以把整個分類全部爬下來。但是不建議你這樣學習。

旅遊就去這些古鎮吧！

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - from bs4 import BeautifulSoup import u

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【網路爬蟲】爬取豆瓣電影Top250評論

前言本爬蟲大致流程為：（1）分析網頁——分析網站結構（2）傳送請求——通過requests傳送請求（3）響應請求——得到請求響應的頁面（4）解析響應——分析頁面，得到想要的資料（5）儲存文字——以txt格式儲存使用環境 anaconda3 pyt

【Python3 爬蟲】06_robots.txt查看網站爬取限制情況

使用 mage none logs HR python3 clas 分享處理大多數網站都會定義robots.txt文件來限制爬蟲爬去信息，我們在爬去網站之前可以使用robots.txt來查看的相關限制信息例如：我們以【CSDN博客】的限制信息為例子在瀏覽器輸入：http

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

【Python3爬蟲】使用Fidder實現APP爬取

telerik tail 實現鏈接端口號 dpi () vco 軟件之前爬取都是網頁上的數據，今天要來說一下怎麽借助Fidder來爬取手機APP上的數據。一、環境配置 1、Fidder的安裝和配置沒有安裝Fidder軟件的可以進入這個網址下載，然後就是傻瓜式的

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

【Python3爬蟲】我爬取了七萬條彈幕，看看RNG和SKT打得怎麼樣

一、寫在前面　　直播行業已經火熱幾年了，幾個大平臺也有了各自獨特的“彈幕文化”，不過現在很多平臺直播比賽時的彈幕都基本沒法看的，主要是因為網路上的噴子還是挺多的，尤其是在觀看比賽的時候，很多彈幕不是噴選手就是噴戰隊，如果看了這種彈幕，真是讓比賽減分不少。　　　　但和別的平臺

【Python】【爬蟲】爬取網易、騰訊、新浪、搜狐新聞到本地

這個實驗主要爬取新聞網站首頁的新聞內容儲存到本地，爬取內容有標題、時間、來源、評論數和正文。工具：python 3.6 谷歌瀏覽器爬取過程：一、安裝庫：urllib、requests、BeautifulSoup 1、urllib庫：Urlli

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

----------------------------------------------------------------------------------------------------------------------------- 1：在商品頁面f1

【爬蟲】爬取貓眼電影top100

用正則表示式爬取 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速匯入此模組：滑鼠先點到要匯入的函式處，再Alt + Enter進行選擇 from multiprocessing.pool im

【Python3爬蟲】反反爬之解決前端反除錯問題

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　　此時網頁暫停載入，也就沒法執行程式碼了，直接中斷掉了，難道這就能阻止我們爬取了？不存在的，還是會有解決方案的。至於怎麼做，請慢慢往下看。

【Python3爬蟲】突破反爬之應對前端反除錯手段

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　此時網頁暫停載入，自動跳轉到 Source 頁面並打開了一個 JS 檔案，在右側可以看到 “Debugger paused&r

【Python3 爬蟲】04_urllib.request.urlretrieve

ont utf-8 html HA 觸發 request 效果數量 class urllib模塊提供的urlretrieve()函數,urlretrieve()方法直接將遠程的數據下載到本地 urllib語法參數url:傳入的網址，網址必須得是個字符串參數filen

【Python3 爬蟲】Beautiful Soup庫的使用

attrs mouse 爬蟲 image 結構定義正則表達式 ttr document 之前學習了正則表達式，但是發現如果用正則表達式寫網絡爬蟲，那是相當的復雜啊！於是就有了Beautiful Soup簡單來說，Beautiful Soup是python的一個庫，最主要

【Python3爬蟲】有道翻譯

inpu handler ram lan chrome+ str sel text json 準備：Python3.5+Chrome+Pycharm 步驟：（1）打開有道翻譯的網頁，然後鼠標右鍵檢查（或者按F12），再輸入一個單詞（例如book），在XHR選項中可以看到這

【Python3爬蟲】網易雲音樂歌單下載

所有我們 discover outer list with open 分析 roc spa 一、目標：　　下載網易雲音樂熱門歌單二、用到的模塊：　　requests，multiprocessing，re。三、步驟：　　（1）頁面分析：首先打開網易雲音樂，

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

相關推薦