1. 程式人生 > >Python爬蟲例項(1)-爬取一張貓的照片

Python爬蟲例項(1)-爬取一張貓的照片

程式設計這種實用性的工程性語言,光看書、背概念是完全刻舟求劍;learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期,總結之後寫在CSDN上;通過自己感覺非常經典的例項,來表達爬蟲的知識點。話不多說,上一篇描述了爬蟲的原理之後,這一篇搞第一個例項。

執行環境是Anaconda-Spyder,Python3.6,win7系統,親測可執行。程式碼註釋詳細,對新手很友好。

第三方包的安裝,見第二篇部落格,此處不再贅述。

#表示使用utf-8編碼格式,可以使用中文
# -*- coding: utf-8 -*- 


#本例項必要的包。requests包用於請求網頁資訊,os包用於呼叫當前作業系統的命令
import requests
import os


#在本地新建資料夾,命名為cat_img,用以儲存下載的圖片。具體語句的含義,可看程式碼猜測,也可百度方法的含義
folder = 'cat_img'
if not os.path.exists(folder):
    os.makedirs(folder)


#新建一個函式,命名為download,作用是從網頁中圖片對應的程式碼,將圖片下載到本地,下載路徑為上面的folder資料夾中
def download(url):
    response = requests.get(url, headers = header)
    name = url.split('/')[-1]
    f = open( folder + '/' + name + '.jpg', 'wb')
    f.write(response.content)
    f.close()
    return True


#網頁的基本資訊,包含網址url,和請求頭header。這裡的cat_url就是圖片對應的網址,header的作用是防止反爬機制
cat_url = 'http://placekitten.com/450/1000'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}


#執行圖片下載函式download,下載圖片
download(cat_url)
print('OK')
#執行完畢之後,可以檢視本地,一張貓的圖片已經下載到了//cat_img這個資料夾下

本例子十分簡單,下載的圖片只有一張。實際工作中,爬蟲肯定不止這麼簡單。

本例涉及到的知識點:
1、requests包的基本使用,爬蟲請求網頁的方法;
2、新建函式的方法,以及下載圖片的函式的寫法;
3、用os包在本地電腦新建一個資料夾的方法;
4、headers請求頭,網址url的定義

相關推薦

Python爬蟲例項1-照片

程式設計這種實用性的工程性語言,光看書、背概念是完全刻舟求劍;learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期,總結之後寫在CSDN上;通過自己感覺非常經典的例項,來表達爬蟲的知識點。話不多說,上一篇描述了爬蟲的原理之後,這一篇搞第一個例

$python爬蟲系列1——一個簡單的爬蟲例項

  本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文字內容; 分析html中圖片的html標籤特徵,用正則解析出所有的

Python爬蟲實戰1——百度貼吧抓帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼,寫的參差不齊,但是其中有很多寫的非常的優秀,程式碼質量很高,規範性也很好,很具有代表性,非常值得我們去學習!~ 寫好一個python爬蟲需要有以下幾個必備條件: 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等),結構性封裝性好,重

python學習scrapy爬蟲框架——桌布儲存並命名

寫在開始之前 按照上一篇介紹過的scrapy爬蟲的建立順序,我們開始爬取桌布的爬蟲的建立。 首先,再過一遍scrapy爬蟲的建立順序: 第一步:確定要在pipelines裡進行處理的資料,寫好items檔案 第二步:建立爬蟲檔案,將所需要的資訊從網站上爬

Python爬蟲學習1

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久,也在慕課網學習了一些python相關基礎,對於爬蟲初步認為是依靠一系列正則獲取目標內容數據 於是參照著慕課網上的教學視頻,完成了我的第一個python爬蟲,雞凍 >

爬蟲系列--頁面上的影象

爬蟲系列(六)--爬取頁面上的影象 馬上國慶節了,要是再不寫,可能又要到了十一過後才能寫了。影象的爬取和普通頁面的爬取是一樣的,只是不需要進行轉碼,是二進位制資料,直接寫入檔案中就行了。要注意的地方就是副檔名,還有圖片檔案是否已經存在了。 1.目標簡介 下面的內容要實現的是爬取取

Python爬蟲-速度1

Python爬蟲-速度(1) 文章目錄 Python爬蟲-速度(1) 前言 網頁分析 介面設計 執行效果 018.9.16 Python爬蟲-速度(2) Python爬蟲-速度(3) 前言

python學習例項1

#====================================== #1.2 計算機程式設計的基本概念 #====================================== #++++++++++++++++++++++++++++++++++++++

python---爬蟲51job1

這學期學的python,老師每次在上課前會佈置作業,因此再次做下梳理,鞏固知識點 ①使用python程式設計實現上述過程(訪問https://www.51job.com/,在搜尋框輸入關鍵字:python java,用右邊的加號選擇北京、上海、廣州、深圳四個城市),不需要使

python 爬蟲例項

問題描述 爬取部落格園的首頁資料URL【https://home.cnblogs.com/blog/page/1/】,之後寫到自己的Excel裡面   環境: OS:Window10 python:3.7   程式碼 import requests import os

python 爬蟲例項

環境: OS:Window10 python:3.7   爬取鏈家地產上面的資料,兩個畫面上的資料的爬取 效果,下面的兩個網頁中的資料取出來     程式碼 import datetime import threading import requ

$python爬蟲系列1——一個簡單的爬蟲實例

name 響應 -s 鏈接 實例 blog itl 匹配 列表 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文本內容; 分析html中圖

python爬蟲示例1---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

四周實現爬蟲系統1-抓tripadvisor途鷹網站資料資訊

1.獲取單頁景點資訊 2.觀察網址特徵,獲取多頁景點資料 3.利用cookie資訊實現偽登入,獲取個人儲存清單的景點資訊 4.利用 device mode 實習反爬資訊的抓取-圖片資訊 #技巧1:通過模擬手機頁面獲得反爬取資訊,頁面右擊檢查,device

python爬蟲例項——用scarpy框架全部新浪新聞

使用scrapy框架爬取新浪網導航頁所有的大類,小類的子連結,取出連結頁面新聞內容。python版本3.5注意點:spider檔案中不寫allowed domains,因為後面的子連結的url中跟不包含new.sina.com爬蟲執行報錯:DEBUG: Filtered of

python爬蟲系列1:使用python3和正則表示式獲取貓眼電影排行榜資料

簡述 這次打算寫一個爬蟲系列,一邊也想好好總結鞏固學習的知識,一邊做總結筆記,方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊,就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神,期望您能不吝賜教,指正錯誤,如果您是小白,咋們可以一同

Python爬蟲入門1:綜述

大家好哈,最近博主在學習Python,學習期間也遇到一些問題,獲得了一些經驗,在此將自己的學習系統地整理下來,如果大家有興趣學習爬蟲的話,可以將這些文章作為參考,也歡迎大家一共分享學習經驗。 Python版本:2.7,Python 3請另尋其他博文。 首先爬蟲是什麼?

通過python的urllib.request庫來

com cat alt cnblogs write amazon 技術分享 color lac 我們實驗的網站很簡單,就是一個關於貓的圖片的網站:http://placekitten.com 代碼如下: import urllib.request respond =

一個簡單Python爬蟲例項的是前程無憂網的部分招聘資訊

從今天開始學習爬蟲,展示我的第一個例項(用的是Python3寫的,Python2需要加個編碼方式吧,或許還有其他的不相容的地方吧,我就不知道了),把這分享給大家,希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

Python開發簡單爬蟲---百度百科頁面數據

class 實例 實例代碼 編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略: 打開目標頁面,通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的