記錄一次python爬蟲批量下載一個校花網站的妹子圖片

阿新 • • 發佈：2018-11-05

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。

中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。

然後決定自己寫一個爬蟲，已經看書兩個禮拜了，也要練一練了。

宣告：程式碼寫的不怎麼好，大神別嫌棄，可以給些建議。

先來點圖片養個眼，提升下動力。

這個是批量下載的一個妹子的圖片。

開始爬蟲：本次使用的環境是linux-ubantu，python3。

import urllib.request
from bs4 import BeautifulSoup
import requests

先獲取頁面連結內容

get_url = urllib.request.Request(url, headers)
res = urllib.request.urlopen(get_url).read()

res是獲取的html網頁。使用python的現成庫BeautifulSoup去進行搜尋。先去網頁F12分析：

如下圖：

我畫紅框的那兩個關鍵點，第一個是圖片的list表，從這裡可以獲取每一個校花的列表。

soup = BeautfulSoup(res, "html.parser")
pict_list = soup.find('div', id='list_img').find_all('a', target='_blank')

獲取完的資訊是下面這樣的，可以看出一個校花的資訊出現了兩次，那就寫一個判斷的每次只取一個（方法簡單不單獨寫了，所有程式碼附在最後）

find方法找到一整個列表， find_all方法發現每個校花的詳細資訊。

第二個烈表示其中之一校花的網頁連結，通過這個連結可以知道這個校花所有的圖片，然後開啟這個網頁，再針對單個校花進行分析：看圖

分析得出：每張妹子圖都在div的class =="p-tmb"中間，使用find_all方法找出所有的，然後單獨找出每一張的圖片所在的資訊行，使用find找出來。

soup = BeautifulSoup(ret_girl_url, "html.parser")
picture = soup.find_all('div', class_='p-tmb')

仔細看，jpg格式的連結，是不完整的，自己把頭部加一下，頭部就是這個網頁的首頁地址。

獲得了這麼多資訊，就可以直接進行下載儲存了

這就下載好了，下載好的圖片在一開始就已經展示了，在這裡就不再展示了，把原始碼附在這裡，想學習的可以看看，也可以給點建議，共同進步。

import urllib.request
from bs4 import BeautifulSoup
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102UBrowser/6.1.2107.204 Safari/537.36'}

url_list = []
def get_href(url):
    if url in url_list:
        return None
    else:
        url_list.append(url)
        return url

def down_pic(url):
    r = requests.get(url, headers)
    name = url[-10:-4]
    print(name)
    with open(name+'.jpg', 'wb') as f:
        for chunk in r.iter_content(1024):
            if chunk:
                f.write(chunk)

def get_url_list(url):
    get_url = urllib.request.Request(url, headers=headers)
    res = urllib.request.urlopen(get_url).read() 
    soup = BeautifulSoup(res, "html.parser")
    pict_list = soup.find('div', id='list_img').find_all('a', target='_blank')
    return pict_list

def get_new_url(content):
    html = content['href']
    new_url = get_href(html)
    if new_url == None:
        return None
    else:
        return new_url
def get_picture_url_info(url):
    girl_url = urllib.request.Request(url, headers=headers)
    ret_girl_url = urllib.request.urlopen(girl_url).read()
    soup = BeautifulSoup(ret_girl_url, "html.parser")
    picture = soup.find_all('div', class_='p-tmb')
    return picture

def get_addr(girl_url):
    tmp = girl_url.find('img')
    addr = tmp['src']
    www = "http://www.xiaohuar.com"
    return www+addr

def start():
    url = 'http://www.xiaohuar.com/list-1-\d+.html'
    lst = get_url_list(url)
    for line in lst:
        new_url = get_new_url(line)
        if new_url == None:
            continue
        info = get_picture_url_info(new_url)
        for girl in info:
            addr = get_addr(girl)
            print('addr:', addr)
            down_pic(addr)
        break

if __name__ == '__main__':
    start()

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

一步步分析百度音樂的播放地址，利用Python爬蟲批量下載

百度音樂不需要登入也可以下載？聽到這個訊息是不是很興奮呢，接下來我們開啟百度音樂,隨便開啟一首歌，切換到百度播放頁面：如圖我這裡用的是Firfox 瀏覽器，開啟firebug 先清空所有的請求，如圖：現在我們重新重新整理下頁面，看到這個.mp3的地址就是百度音樂的

記一次Python爬蟲開發經歷

light 情況獲取數據類型 true charm req 是我遇到為啥要做Python爬蟲，是因為我去找電影的某個網站有點坑，它支持tag標簽查詢自己喜歡的電影，但是不支持雙標簽或者三標簽查詢。由於一個電影對應多種類型(tag)，這就意味著，我需要進入這個電影介紹

記錄一次Python下Tensorflow安裝過程，1.7帶GPU加速版本

最近由於論文需要，急需搭建Tensorflow環境，16年底當時Tensorflow版本號還沒有過1，我曾按照手冊搭建過CPU版本。目前，1.7算是比較新的版本了（也可以從原始碼編譯1.8版本的Tensorflow）。安裝步驟：不能急於求成，安裝任何東西前都應該先閱讀使用者手冊與FAQ，弄清軟體依賴與安裝

ubuntu常用命令及操作，包括安裝CUDA 記錄一次Python下Tensorflow安裝過程，1.7帶GPU加速版本

chmo 777 Document 這裡Document是一個資料夾，資料夾中還有好多子檔案，可以發現執行了這條指令以後，其子資料夾的許可權並沒有改變。要想改變其子資料夾的許可權，應該執行 chmod -R 777 Document/ ubuntu desktop的英偉達CUD

python爬蟲批量下載全民K歌音樂

網址示例: https://node.kg.qq.com/personal?uid=639e9983222a338a 直接上原始碼: import requests import time import re import json import pprint import math impor

利用Python爬蟲批量下載網易雲音樂歌單歌曲

from tkinter import * import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve def download(): url = ent

Python+Selenium自動化模擬用戶登錄(備註：記錄一次強行卸載rpm依賴包，引發的rpm、yum等命令異常，無法遠程xftp工具)

支持 fir 遠程 margin pan ~~ dep sta aliyun 近期在摸索Python+Selenium自動化，實現模擬用戶登錄搜索等操作，反饋相關日誌，再交由Zabbix分析，監控頁面訪問是否正常。期間需要對Linux火狐瀏

關於js物件中兩個函式互相呼叫，其中一個為定時器宣告，定時器迴圈報錯問題（記錄一次嘗試新寫法的報錯經歷）附帶無縫輪播圖程式碼

先上之前的錯誤程式碼吧，注意計時器這個方法（是想把之前寫的的輪播圖演示重構一下） var obj = { sleepTime: 2000,//輪播延時 cont: 0,//第幾張 origin: document.getElementsByClassName('main-

記錄一次先手工再python指令碼驗證永恆之藍ms17-10漏洞

檢視資料 ms17-10漏洞利用的步驟大致如下開啟msf use auxiliary/scanner/smb/smb_ms17_010 msf exploit(ms17_010_eternalblue) > use exploit/windows/smb/ms1

python多執行緒爬蟲+批量下載鬥圖啦圖片專案（關注、持續更新）

python多執行緒爬蟲專案（）爬取目標：鬥圖啦（起始url：http://www.doutula.com/photo/list/?page=1）爬取內容：鬥圖啦全網圖片使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　xpath實現資料解析、提取和清洗　　　　　　　thr

關於js物件中兩個函式互相呼叫，其中一個為定時器宣告，定時器迴圈報錯問題（記錄一次嘗試新寫法的報錯經歷）

先上之前的錯誤程式碼吧(是想把之前寫的的輪播圖demo重構一下) var obj = { sleepTime: 2000,//輪播延時 cont: 0,//第幾張 origin: document.getElementsByClassName('ma

selenium的封殺與突破，記錄一次出師未捷身先死，淘寶、美團對爬蟲的深入打擊

做爬蟲，出師未捷身先死，體會過嗎？！！！最近在做一個國外的網站爬蟲中文名叫蝙蝠，有網友這樣介紹的：“貿易中介類的網站，PR值是6，網站比較可靠”；上面記錄了很多公司的資訊，如電話、地址、業務等等，目標就是採集特定公司的資訊。本文不是講如何突破淘寶和美團，而是通過一個案列講解他們所

記錄一次在內網Linux環境安裝Python的經歷

目標因工作需要，希望在內網的一臺Linux Server上安裝Python及相關工具包。但在實際安裝過程中，遇到了缺少依賴包等問題。安裝時問題缺少依賴軟體包或模組 $ ./configure --prefix=/usr/local/pyth

記錄一次艱辛的Python包持續整合與釋出過程

緣由為了保證程式碼質量，編寫單元測試是非常必要的，特別是在團隊開發的過程中，編寫有效的單元測試保證每人編寫的模組能夠正常工作，以免專案後期出現各種不可預知的bug，因此，在提交程式碼前執行單元測試，可以有效保證程式碼的健壯性。這種工作當然是要自動化完成，因此

記錄一次遊戲伺服器的批量掉線事故(iteye文章遷移，2014）

我負責的手遊專案先後在大陸和臺灣上線，大陸服先上的，一直比較穩定，臺灣服一個多月前出現了半夜無法登陸和批量掉線的問題,由於一開始判斷錯了方向,導致找到正確的原因花了不少時間,現在把這個問題記錄下來,分享一下.也許以後碰上類似的問題能用的上.問題描述:伺服器執行一段時間

記錄一次“記錄超長”

har 語句類型執行如果可能事情縮小百度 Jdbc報錯“記錄超長”，百度一下推測可能是因為SQL過長導致；但是後來經過老杜指點，發現原來是因為字段（varchar 8000）超長導致；解決問題的套路： 1. 首先在Sql的客戶端上執行代碼；如果不錯，說明還是

[邏輯漏洞]記錄一次挖洞

9.png 列表一次查詢 urn 找到 ima sting .com 陽光明媚的早上，turn on the PC and 隨意地瀏覽著以往漏洞列表，希望在裏面找到一些遺忘的痕跡。果然，我發現一個被忽略的漏洞，一個暴露在外網的的一個接口，可以查詢該企業網站是否註冊了的

簡單記錄一次REDO文件損壞報錯 ORA-00333重做日誌讀取塊出錯

clas 後者利用實例恢復 poi cancel true cover html 一.故障描寫敘述首先是實例恢復須要用到的REDO文件損壞二、解決方法 1.對於非當前REDO或者當前REDO可是無活動事務使用下面CLEAR命令：用CLEAR命令重建該日誌

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

相關推薦