Python 3.5_簡單上手、爬取百度圖片的高清原圖 Python 3.5_簡單上手、爬取百度圖片的高清原圖

阿新 • • 發佈：2018-11-12

Python 3.5_簡單上手、爬取百度圖片的高清原圖

2017年11月10日 15:49:50 閱讀數：1008

利用工作之餘的時間，學習Python差不多也有小一個月的時間了，路漫漫其修遠兮，我依然是隻菜鳥。

感覺學習新技術確實是一個痛並快樂著的過程，在此分享些心得和收穫，並貼一個爬取百度圖片原圖的程式碼。

程式碼主要參考了xiligey老司機前輩的一篇文章，在基礎上添加了一些的功能，在此謝過。http://m.blog.csdn.net/xiligey1/article/details/73321152

一、安裝，搭建環境

首先是Python的安裝，我想網上已經很多了，如果連安裝都搞不定接下來的也不用看了，我自己用得是3.5的版本。

官網https://www.python.org/

除此之外分享一個國外的網站，涵蓋了幾乎全部的python模組，執行過程中有模組缺失的可以pip或者手動在這裡下載安裝。

下載下來的檔案字尾名改成.zip，解壓出來的資料夾直接放在python安裝目錄下的Lib資料夾裡即可。

為了讓我們碼程式碼更簡單舒服，除錯更輕鬆，推薦一個IDE:PyCharm ,介面和操作都很友好易上手，需要的自行百度安裝。

二、核心程式碼

首先F12除錯模式，檢視圖片的連結地址

後來實驗了，發現這是小圖的連結地址，咱直接pass。在網頁空白處右鍵檢視原始碼，根據前輩的經驗，我們能找到objUrl既是我們需要的原圖的地址,這下就好辦了，直接正則匹配，

pattern_pic = '"objURL":"(.*?)",'

而後處理翻頁的問題

pattern_fanye = '<a href="(.*)" class="n">下一頁</a>'
fanye_url = re.findall(pattern_fanye, html)[0]  # 下一頁的連結

最後就可以迴圈儲存圖片了。

以下貼出程式碼：

[python] view plain copy

# coding=utf-8
"""
爬取百度圖片的高清原圖
Author : MirrorMan
Created : 2017-11-10
"""
import re
import sys
import urllib
import os
import requests
def get_onepage_urls(onepageurl):
if not onepageurl:
print('執行結束')
return [], ''
try:
html = requests.get(onepageurl).text
except Exception as e:
print(e)
pic_urls = []
fanye_url = ''
return pic_urls, fanye_url
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)
fanye_urls = re.findall(re.compile(r'<a href="(.*)" class="n">下一頁</a>'), html, flags=0)
fanye_url = 'http://image.baidu.com' + fanye_urls[0] if fanye_urls else ''
return pic_urls, fanye_url
def down_pic(pic_urls,localPath):
if not os.path.exists(localPath): # 新建資料夾
os.mkdir(localPath)
"""給出圖片連結列表, 下載圖片"""
for i, pic_url in enumerate(pic_urls):
try:
pic = requests.get(pic_url, timeout=15)
string = str(i + 1) + '.jpg'
with open(localPath + '%d.jpg' % i, 'wb')as f:
f.write(pic.content)
# with open(string, 'wb') as f:
# f.write(pic.content)
print('成功下載第%s張圖片: %s' % (str(i + 1), str(pic_url)))
except Exception as e:
print('下載第%s張圖片時失敗: %s' % (str(i + 1), str(pic_url)))
print(e)
continue
if __name__ == '__main__':
keyword = '泰勒斯威夫特1920*1080' # 關鍵詞, 改為你想輸入的詞即可
url_init_first = r'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word='
url_init = url_init_first + urllib.parse.quote(keyword, safe='/')
all_pic_urls = []
onepage_urls, fanye_url = get_onepage_urls(url_init)
all_pic_urls.extend(onepage_urls)
fanye_count = 1 # 圖片所在頁數，下載完後調整這裡就行
while 1:
onepage_urls, fanye_url = get_onepage_urls(fanye_url)
fanye_count += 1
print('第%s頁' % fanye_count)
if fanye_url == '' and onepage_urls == []:
break
all_pic_urls.extend(onepage_urls)
down_pic(list(set(all_pic_urls)),'e:/PythonPic/泰勒%s/' % fanye_count)#儲存位置也可以修改

三、其它

執行跑起來，

有些圖片是無效的，一般就是連結失效了，也在我們的承受範圍中，接下來大家就盡情享受吧

MirrorMan

2017/11/10

Python 3.5_簡單上手、爬取百度圖片的高清原圖 Python 3.5_簡單上手、爬取百度圖片的高清原圖

Python 3.5_簡單上手、爬取百度圖片的高清原圖 2017年11月10日 15:49:50 閱讀數：1008 利用工作之餘的時間，學習Python差不多也有小一個月的時間了，路漫漫其修遠兮，我依然是隻菜鳥。感覺

python編程快速上手之第10章實踐項目參考答案(11.11.3)

name driver ret text rul from url .get right from selenium import webdriver from selenium.webdriver.common.keys import Keys import time

python編程快速上手之第15章實踐項目參考答案(17.7.3)

lane width ima font height 開始 users nco window #! python3 # encoding: UTF-8 import os,docx from PIL import Image, ImageDraw from PIL imp

用單進程、多線程並發、多線程分別實現爬一個或多個網站的所有鏈接，用瀏覽器打開所有鏈接並保存截圖 python

app imp mat 並發執行 cut h+ chrome 鏈接目錄 #coding=utf-8import requestsimport re,os,time,ConfigParserfrom selenium import webdriverfrom multipr

Python實現簡單的用戶登錄信息確認，密碼輸錯3次後，用戶被鎖定

and 技術分享 swd gin 計數 lse img success python ‘‘‘問題描述：從文檔中讀入用戶名和密碼，檢驗用戶名和密碼的正確性，密碼輸錯三次後用戶被鎖定，不允許登陸解決思路：

python練習題，寫一個方法傳進去列表和預期的value 求出所有變量得取值可能性（例如list為[1,2,3,4,5,6,12,19]，value為20，結果是19+1==20只有一種可能性），要求時間復雜度為O(n)

num bubuko com pri def 代碼 data- 取值 .com 題目：（來自光榮之路老師）a+b==valuea+b+c=valuea+b+c+d==valuea+b+c+d+...=valuea和b....取值範圍都在0-value寫一個方法傳進去列

爬取了 48048 條評論資料，解讀 9.3 分的《毒液》是否值得一看？

11月，由湯姆·哈迪主演的“毒液：致命守護者”在國內上映，依託漫威的光環以及演員們精湛的演技，這部動作科幻片在貓眼評分得到豆瓣7.4的評分，口碑和票房都高於大多數同期上映的其他影片。所以週日的時候跟基友去電影院去看了這場正邪共生的電影，100多人的影院座無虛席，不過看完之後對比其他漫威作品

做一個簡單的銀行、賬戶演示程式。（1）定義一個賬戶類，包含使用者名稱、密碼、餘額等屬性、存錢、取錢等方法。（2）定義一個銀行類，包含銀行名、賬戶列表等屬性，開賬戶、查賬戶的功能。賬戶列表可以使用集

做一個簡單的銀行、賬戶演示程式。（1）定義一個賬戶類，包含使用者名稱、密碼、餘額等屬性、存錢、取錢等方法。（2）定義一個銀行類，包含銀行名、賬戶列表等屬性，開賬戶、查賬戶的功能。賬戶列表可以使用

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

利用Python破解Vip高品質音樂，完美攻破了其vip音樂爬取方式！

綜述利用酷狗的搜尋和無損音樂下載的介面，然後加上我們的Python，做出一個網路爬蟲。此教程利用了flask框架，在網頁源內容中搜尋關鍵字，然後利用爬蟲採集相關資料，並且把資料前端呈現； windows python 2，Python 3 的話自己稍微更改下程

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

Python高級特性：Python叠代、生成器、列表生成式

才會 except ons oot 惰性 pen 常用 fun mta 叠代給定一個list或tuple，我們可以通過for循環來遍歷這個list或tuple，這種遍歷稱為叠代（Iteration）。在java和C語言中，叠代是通過循環list的下標來完成的，Python中

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

Cocos2dx 3.0 過渡篇（二十七）C++11多線程std::thread的簡單使用(下)

fonts fun avi 2dx read 來源 cpp break 輸出本篇接上篇繼續講：上篇傳送門：http://blog.csdn.net/star530/article/details/24186783簡單的東西我都說的幾乎相同了，想挖點深的差點把自己給填進

【python學習】今天看看學習 %d ,%s, %f 等用法，下面的學習例子是說輸入名字、年齡、工作，工資。並給出65歲退休還差多久的計算

msg ear end style 資料科學一個保留 value 今天看看學習 %d ,%s, %f 等用法。%d 是占位符整數，%s 是占位符，%f 是浮點數。下面的學習例子是說輸入名字、年齡、工作，工資。並給出65歲退休還差多久的計算。重點在於用占位符來print

補碼(為什麽按位取反再加一)：告訴你一個其實很簡單的問題

滿足所有我們進位數字樂意如果二進制關系　　首先，閱讀這篇文章的你，肯定是一個在網上已經糾結了很久的讀者，因為你查閱了所有你能查到的資料，然後他們都會很耐心的告訴你，補碼：就是按位取反，然後加一。準確無誤，毫無破綻。但是，你搜遍了所有俯拾即是而且準確無誤的答

簡單便捷的純PHP網盤程序 Veno File Manager 2.6.3(VFM2)

-s 用戶註冊是否 share size 時間容量 center 補丁體驗過很多國外網盤程序，例如：Owncloud、Bedrive、YetiShare、XFilesharing、uCloud、Cloudshare 等等，諸如此類，VFM2與這些臃腫的商用或非商用來

爆炒區塊鏈3.0概念，EOS想超ETH（以太坊），沒那麽簡單！

eos區塊鏈2017年6月25日，EOS開始上線眾籌，時間為一年！也就是說，EOS眾籌結束時間要到2018年6月。自EOS眾籌以來，炒得最多的就是區塊鏈3.0概念，比如要超越以太坊，要做真正的區塊鏈操作系統…… 那麽，這個目前還在概念中的EOS，真的可以取代以太坊嗎？我們一起來看看。一、從以太坊說起 Eth

Python 3.5_簡單上手、爬取百度圖片的高清原圖 Python 3.5_簡單上手、爬取百度圖片的高清原圖

Python 3.5_簡單上手、爬取百度圖片的高清原圖

一、安裝，搭建環境

二、核心程式碼

三、其它

相關推薦