python3通過flickr id來爬取每個id下照片總數

阿新 • • 發佈：2019-01-28

使用python3+requests+beautifulsoup4+openpyxl

因為在網上做了一個兼職，是他們給我flickr的ID，通過這些id來找需要的照片。有時候有的ID下照片太少，所以這有的ID不需要。寫這個小程式就是為了過濾掉照片數太少的。

1.首先通過openpyxl把資料讀取出來，儲存在一個列表中。
建立一個Excel類，裡面有讀取Excel資料的函式（readExcel）和把資料寫入Excel表中的函式（writeExcel）
程式碼：

'''
Created on 2017年9月3日

@author: liutao
'''
from openpyxl import 
 load_workbook
from openpyxl import Workbook
from openpyxl.writer.excel import ExcelWriter 
import os

class excel():



    def __init__(self, fil_address):
        self.file_address = fil_address

    #讀取Excel表資料    
    def readExcel(self):
        """在Excel中讀取資料 """
        data = []
        wb = load_workbook(self.file_address)
        sheet = wb.active
        for 
 i in range(1, sheet.max_row+1):
            data.append(sheet.cell(row=i, column=1).value)
        wb.close()
        return data


    #寫入Excel資料
    def writeExcel(self, lists):
        """把資料寫入到excel中"""
        wb = Workbook()
        ws = wb.active
        #去除副檔名
        file_name = os.path.splitext(str(self.file_address))[0 
]+str('(1)')+str('.xlsx')
        print(file_name)
        print(lists)
        for i in range(0, len(lists)):
            ws.append(lists[i])
        wb.save(file_name)

然後就是爬蟲，爬蟲是用第三方庫requests寫的，我覺得這個比自帶的urllib簡單多了，很方便。不過就是速度不怎麼快，或許是我用的ssr，網速太慢了吧。

爬蟲我還沒有采用類的方式來寫，因為後期還需要修改，現在只是邊寫邊測試。寫的不好，見諒~

爬蟲程式碼

'''
Created on 2017年9月3日

@author: liutao
'''
# /bin/bash

from Excel import excel
import requests
from bs4 import BeautifulSoup

file = "劉濤5.xlsx"
ex = excel(file)
ids = ex.readExcel()

#開始爬取網站使用者圖片總量
nums_data = []  #儲存對應的照片數量
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
    ,'accept-language': 'zh-CN,zh;q=0.8'
    ,'accept-encoding': 'gzip, deflate, br'
    }

for i in range(0, len(ids)):
    url = r'https://www.flickr.com/photos/'+ids[i]
    print(str(i)+':'+url)
    try:
        r = requests.get(url, timeout=15, headers=headers)
    except requests.RequestException as e:
        print(e)
        #如果發生異常，設定照片數為0 
        nums_data.append([ids[i],0])
    except requests.ReadTimeout as t:
        print(t+'連線超時。。')
        nums_data.append([ids[i],0])
    else:    
        html = r.text
        #提取返回資料中的照片數
        soup = BeautifulSoup(html,"html.parser")
        tags = soup.find('p',attrs={'class':'metadata-item photo-count'})
        num = tags.string
        nums_data.append([ids[i],num])


ex.writeExcel(nums_data)

我實在windows環境下寫的，還沒在linux下去測試。windows下目錄不怎麼好使。

技術太渣了，還需努力啊

使用前：還沒用爬蟲之前

使用後，會生成一個新檔案，如之前有個檔案為劉濤.xlsx 爬取之後會在同目錄生成一個劉濤（1）.xlsx
爬取資料之後

後期我想還會加入多執行緒（加速爬取速度），ip代理（防封ip）。看能不能用web的方式來提供這個服務。

python3通過flickr id來爬取每個id下照片總數

使用python3+requests+beautifulsoup4+openpyxl 因為在網上做了一個兼職，是他們給我flickr的ID，通過這些id來找需要的照片。有時候有的ID下照片太少，所以這有的ID不需要。寫這個小程式就是為了過濾掉照片數太少的。

通過python的urllib.request庫來爬取一只貓

com cat alt cnblogs write amazon 技術分享 color lac 我們實驗的網站很簡單，就是一個關於貓的圖片的網站：http://placekitten.com 代碼如下： import urllib.request respond =

python設置代理IP來爬取拉勾網上的職位信息，

chrome https htm input post 進行 work port ota import requests import json import time position = input(‘輸入你要查詢的職位：‘) url = ‘https://www

[實戰演練]python3使用requests模塊爬取頁面內容

取圖簡書服務器二進制 tty ret index 內容亂碼 20px 本文摘要： 1.安裝pip 2.安裝requests模塊 3.安裝beautifulsoup4 4.requests模塊淺析 + 發送請求 + 傳遞URL參數 + 響應內容

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

Python騷操作！利用Python來爬取IP代理！偷偷給文章刷閱讀量！

__main__ media 更多 add safari atp choice utf-8 取數二、代碼代碼直接參考了下文，更多解讀參見原文，其中將ip提取部分修改了下，並將用來測試IP是否可用的百度url改成了CSDN博客裏文章的url。進群：5483

通過微博搜尋爬取微博

通過關鍵字搜尋微博，只爬取原創的微博，轉發的微博可以通過原文評論的地址找到原微博。微博預設顯示最多頁數是100頁也就是max_page 其是通過表單的形式提交，來進行翻頁。找到原微博地址後可以通過xpath解析出微博的使用者，id，轉發數，點贊數，評論數，發微博的時間以及微博內容，提取出來存到mon

Python 利用BeautifulSoup和正則表示式來爬取旅遊網資料

import re import requests import time from bs4 import BeautifulSoup url = ‘http://www.cntour.cn/’ r = requests.get(url) print(r.encoding,len(r.t

利用Python來爬取空姐私密照！把它做成了一款軟體！人人可用哦！

空姐鎮樓標題如題：給出Python爬蟲程式原始碼與支援庫Tkinter的軟體繪製程式碼，然後做出一個爬蟲軟體。淺顯的說就是，我給你爬蟲程式碼和軟體模型製作的程式碼，然後結合成一個可使用的軟體。這個題對於Python新手來說應該是個非常

用python來爬取中國天氣網北京，上海，成都8-15天的天氣

2 爬取北京，上海，成都的天氣 from bs4 import BeautifulSoup import random import requests import socket impo

爬取不得姐網站，利用多執行緒來爬取

利用到的庫 time, requests, lxml, queue, threading 功能爬取不得姐網站中前二十頁的段子資料 import time import requests from lxml import etree from queue

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

運用scrapy框架通過splash無頭瀏覽器爬取之settings檔案配置

1. 修改settings.py，配置SPLASH_URL。在這裡我們的Splash是在本地執行的，所以可以直接配置本地的地址： SPLASH_URL = 'http://localhost:8050' 如果Splash是在遠端伺服器執行的，那此處就應該配置

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

python3使用Selenium+Chrome+BeautifulSoup爬取國家統計局資料

資料網址：https://link.jianshu.com/?t=http%3A%2F%2Fdata.stats.gov.cn%2Feasyquery.htm%3Fcn%3DE0101 爬取目的：爬取固定資產與房地產兩個父指標下，所有子指標裡所有省市自2013年以後的資料使用瀏覽器自

Python又來爬取妹子圖啦，一個T的硬盤都不夠用

chrome 三方動態加載 python bsp img 第三方庫 post請求 mode 淘女郎爬蟲，可動態抓取淘女郎的信息和照片。需要額外安裝的第三方庫 requests pip install requests pymongo pip install p

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

python3爬蟲之使用Scrapy框架爬取性感女神美女照片

使用Scrapy框架爬取性感女神美女照片其實很簡單哦，只需要5分鐘，爬取上萬張性感女神照片。先給大家看一下成果吧：激不激動，興不興奮，那就快來學一下吧：開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了接下來是程式碼

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

python3通過flickr id來爬取每個id下照片總數

相關推薦