python 2.7 圖片下載爬蟲

阿新 • • 發佈：2018-11-03

寫圖片爬蟲的一些心得

1.先到所要下載圖片的網址看看，頁面請求的網址是哪個(我用的是goolge瀏覽器)


2.點選所要下載的圖片，檢視其具體位置，（方便查詢img連結）

3.找好之後就可以寫程式碼了

4.主要難度是找到img=“”的具體位置,需要正則表達搜尋一下
不會正則的或是beautifulsoup的小夥伴可以參考一下這兩個視屏
beautifulsoup：https://www.youtube.com/watch?v=KLq0W1wUVmw&index=3&list=PLXO45tsB95cIuXEgV-mvYWRd_hVC43Akk
正則：https://www.youtube.com/watch?v=l1MAW1z641E
4.搜尋成功後將其下載到本地檔案中

以下是小編我自己寫的程式碼

未改良版的：

#coding=utf-8
import requests
import os
from bs4 import BeautifulSoup

url = "http://www.ngchina.com.cn/magazine/2018/10/1337.html"
html = requests.get(url).text
soup = BeautifulSoup(html,'lxml')

all_img = soup.find_all('a',{'class':'img_btn'})

root = "C://img222//"
os.makedirs(root,mode=0o777)

for ul in all_img:
    imgs = ul.find_all('img')

    for ull in imgs:
        imgss = ull['src']

        r=requests.get(imgss,stream=True)
        path =root + imgss.split('/')[-1]
        try:
            with open(path, 'wb') as f:
                for chunk in r.iter_content(chunk_size=100):
                    f.write(chunk)
            print path
        except:
            print "ERRor"

改良版的：

#coding=utf-8
import requests
import os
from bs4 import BeautifulSoup

def get_url(url):
    headers = {
        "user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",
               "referer" : "http://www.ngchina.com.cn/magazine/2018/10/1337.html"
    }
    res = requests.get (url, headers = headers )
    return res


def main():
    url = "http://www.ngchina.com.cn/magazine/2018/10/1337.html"
    res = get_url(url)
    html = res.text
    soup = BeautifulSoup(html, 'lxml')

    all_imgs = soup.find_all('a', {'class': 'img_btn'})

    for ul in all_imgs:
        imgs = ul.find_all('img')
        for l in imgs:
             imgss = l['src']
             r = requests.get(imgss, stream=True)
             root = "C://img222//"
             path = root + imgss.split('/')[-1]
             try:
                with open (path,"wb") as f:
                    for chunk in r.iter_content(chunk_size=128):
                        f.write(chunk)
                print path
             except:
                print ERROE

if __name__ == "__main__":
    main()

python 2.7 圖片下載爬蟲

寫圖片爬蟲的一些心得 1.先到所要下載圖片的網址看看，頁面請求的網址是哪個(我用的是goolge瀏覽器) 2.點選所要下載的圖片，檢視其具體位置，（方便查詢img連結） 3.找好之後就可以寫程式碼了 4.主要難度是找到img=“”的具體位置,需要正則表達搜尋一下不會正則的或是beauti

Python 2.7下下載並安裝nltk （自然語言處理工具包）

>>>import nltk >>>nltk.download() 下載器上的Collection選項卡顯示軟體包如何被打包分組。選擇book標記所在行，然後選擇下載路徑（注意不要安裝到二級或三級目錄下，最好安裝到D盤或C盤的根目錄下，否則會報錯，我這裡地址就是不

python 2.7 將網頁上的資料下載到資料庫

#coding = utf-8 import requests import pymysql import re import os from bs4 import BeautifulSoup from time import sleep def main(): conn = pymysq

python 2.7 音訊《三國演義》下載

自己總結的一些思路： 1.先到所要下載的音訊的網頁查詢網路的一些基本資訊（url，headers） 2.在network裡查詢json檔案，得到下載所在的網頁路徑 3.開始編碼 4.先正則匹配到每章節的id和名稱 5.找到該章節下載所在的網頁 6.正則匹配下載網頁裡的下載網址 7.以.m4a的形式

Python 基礎爬蟲簡介（測試環境為 Python 2.7）

1、什麼是爬蟲？爬蟲是一種自動訪問網際網路，並提取資料的一個程式。歸根結底，所謂爬蟲，不過是我們用Python語言編寫的一個小程式而已。針對的問題：有些網頁需要我們登陸後才能訪問，而有些網頁則不需要。動態登陸頁面由Ajax非同步載入實現，往往針對此類頁面的

python 2.7 用chardet解決爬蟲獲取網頁編碼的識別判斷和轉換問題

python3以前版本的最頭痛問題就是編碼的轉換，在爬取不同網頁的時候發現編碼有N多種，目前已爬取到的網頁編碼如下： gbk utf-8 UTF-8-SIG SHIFT_JIS GB2312 Big5 EUC-JP ascii CP932 EUC-KR

安裝python 2.7條件下的pip環境

package 條件 packages pypi pip .py fda 2.7 安裝python wget https://pypi.python.org/packages/ff/d4/209f4939c49e31f5524fa0027bf1c8ec3107abaf7c

零基礎學python-2.7 列表與元組

cells one iss 顯示不同元組 jsb lsp ext 事實上，能夠把列表和元組看成普通的數組。可是這個數組能夠存儲不同的數據類型（對象）列表和元組的差別列表元組使用的符號 [] () 元素數量可變不可變改動元素不能

Python 2.7.6 安裝lxml模塊[ubuntu14.04 LTS]

targe 分享 python round .html back ubunt 文件 ati lxml --->首字母是字母l，不是數字１ lxml 2.x : https://pypi.python.org/pypi/lxml/2.3 1xml官網：http

windows平臺python 2.7環境編譯安裝zbar

hone 一個增加 acf extension python2 sdn pat o-c 最近一個項目需要識別二維碼，找來找去找到了zbar和zxing，中間越過無數坑，總算基本上弄明白，分享出來給大家。一、zbar官方介紹 ZBar 是款桌面電腦用條形碼/

windows平臺python 2.7環境編譯安裝zbarlight

ocs ons warnings float depend wal test eight mov 類似於前一篇博文，http://www.cnblogs.com/zhongtang/p/7148082.html中描述的情況。編譯zbarlight同樣出現問題，簡要處理步

Python 2.7.x 和 3.x 版本區別小結

pythonpython現在很火，最近花了些時間去了解了一下，最初了解的是2.7.x版本，感覺，從書寫上是很不習慣，少了一雙大概號，取而代之的是縮進；然後跟kotlin和swift一樣省去了每行的分號，象我們這種分號強迫癥的人真心的不習慣；還有!True的條件改成not True、while後面可以跟else

LINUX 中2.6 python 2.7 版本升級 mark 備註

linux update_ python easy:首先下載源tar包　　可利用linux自帶下載工具wget下載，如下所示：1# wget http://www.python.org/ftp/python/2.7.3/Python-2.7.3.tgz　　　下載完成後到下載目錄下，解壓1tar -zx

mark LINUX_6.8 python_2.6.6 setup版本升級 python 2.7.9 安裝 pip 臨時使用國內鏡像源庫指定模塊版本刪除指定模塊

就會 yum -- 創建 tty zxvf 無法 external django 簡單但卻又經常需要使用網上貼子也很多也經常用所以做個mark 吧： 1首先下載python2.7.9 源tar包源碼安裝　　可利用linux自帶下載工具wget下載，

Python 2.7.x 和 3.x 版本的語法區別

ast ssa pan att 可叠代對象 abcde unicode 用戶列表 <__future__模塊> Python 3.x引入了一些與Python 2不兼容的關鍵字和特性，在Python 2中，可以通過內置的__future__模塊導入這些新

Linux下安裝或升級Python 2.7

版本結果 http ins order 地址 ber 目錄 name 1.準備編譯環境gcc 2.去官網下載要安裝的對應版本的python的源代碼下載地址：https://www.python.org/downloads/source/ 你可以選擇你要下載的版本，

windows 10 python 2.7和python3.6共存解決方法和pip安裝

這樣的 num tool python2.x script tro 判斷解決方法自動化一、首先去python官網將兩個版本下載並安裝；然後進入windows的環境變量，檢查下面4個變量： 1.C:\Python272.C:\Python27\Scripts3.D:\

python 2.7 的Scrapy安裝介紹

contain environ 主頁 easily testin byte finish ani reat 一、 Scrapy簡介 Scrapy is a fast high-level screen scraping and web crawling framewo

CentOS 7.0 下 Python 2.7 升級到 Python 3.5

sqli qlite entos bin prefix 默認 2.7 dir bzip2 前段因為時間工作需要，要把 Centos 7.0 默認安裝的 Python 2.7 升級到 Python 3.5。具體操作如下： # 安裝 gcc gcc-c++ 等編譯工具軟件

配置Python 2.7.1外加環境pywin32-216.win32-py2.7

href str pytho AR content track blog clas edi python-2.7.1 ?安裝包下載地址：http://down

python 2.7 圖片下載爬蟲

相關推薦