爬蟲爬國旗

阿新 • • 發佈：2018-12-20

# -*- coding: utf-8 -*-
"""根據搜尋詞下載百度圖片"""
import re
import sys
import urllib
import requests

def get_onepage_urls(onepageurl):
    """獲取單個翻頁的所有圖片的urls+當前翻頁的下一翻頁的url"""
    #print('syy')
    if not onepageurl:
        print('已到最後一頁, 結束')
        return []
    try:
        req = urllib.request.Request(onepageurl)
        req.add_header('User-Agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
        html = urllib.request.urlopen(req).read()
        html=html.decode('utf-8')
    except Exception as e:
        print(e)
        pic_urls = []
        fanye_url = ''
        return pic_urls, fanye_url
    
    pic_urls = re.findall('img src="(.*?)" width="190"', html, re.S)
    pic_urls=pic_urls[0:35]
    #print(pic_urls)
    title=[]
    
    title=re.findall('alt="(.*?)" style=', html, re.S)
    title=title[0:35]#46
    #print(title)
    if(title):
        print('')
    else:
        title=['']
    #print('title%s' % (title[0:20]))
    #
    fanye_urls = re.findall(re.compile(r"'page-next' href='(.*)'>下一頁"), html, flags=0)
    
    fanye_url = 'http://www.ivsky.com' + fanye_urls[0] if fanye_urls else ''
    #print(fanye_url)
    #return pic_urls,fanye_url,title
    return pic_urls,fanye_url


def down_pic(pic_urls,all_title):
    """給出圖片連結列表, 下載所有圖片"""
    #print(all_title)
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1)  + '.jpg'
            with open('../2_picture/online_picture_3/'+string, 'wb') as f:
                f.write(pic.content)
                print('成功下載第%s張圖片: %s' % (str(i + 1), str(pic_url)))
                
            #if(i>=19):
             #   break
        except Exception as e:
            print('下載第%s張圖片時失敗: %s' % (str(i + 1), str(pic_url)))
            print(e)
            #if(i>=19):
             #   break
            continue


if __name__ == '__main__':
    keyword = 'china flag'  # 關鍵詞, 改為你想輸入的詞即可, 相當於在百度圖片裡搜尋一樣
    
    url_init = r'http://www.ivsky.com/tupian/geguoguoqi_t2928/' 
    all_pic_urls = []
    all_title=[]
    onepage_urls,fanye_url= get_onepage_urls(url_init)
    all_pic_urls.extend(onepage_urls)
    print(all_pic_urls)
    #pic = requests.get('http://img.ivsky.com/img/tupian/t/201101/12/guoqi.jpg', timeout=15)
    #all_title.extend(title)
    fanye_count = 0  # 累計翻頁數
    i=0
    while 1:
        onepage_urls,fanye_url= get_onepage_urls(fanye_url)
        fanye_count += 1
        i+=1
        all_pic_urls.extend(onepage_urls)      
        #all_title.extend(title)
        #print(all_title)
        if(i>=10):#9
            break
        # print('第頁' % str(fanye_count))
        if fanye_url == '' and onepage_urls == []:
            break
    #print(all_title)
    #print(all_pic_urls)
    down_pic(all_pic_urls,all_title)

爬蟲爬國旗

# -*- coding: utf-8 -*- """根據搜尋詞下載百度圖片""" import re import sys import urllib import requests def get_onepage_urls(onepageurl): """獲取單個翻頁的所有圖片的url

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

知乎用戶群分析--又雙叒叕一只爬蟲爬了知乎20萬用戶

-c spider nor ember tps 數值 don thumb 分享一直想趁著知乎還比較開放爬點數據做分析，因為懶延期至今。爬蟲由Java實現，放在服務器上跑了三四天，可以說是龜速了，畢竟爬蟲和反爬蟲就是應該友好相處的嘛，反反爬蟲和反反反爬蟲互相傷害就沒意思了

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

爬蟲-爬取豆瓣圖書TOP250

info spa data inf code pla select lac lec import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(u

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

爬蟲爬當當網書籍信息

表達式 sel soup bs4 cti rom rtt utf system 拖了好久的一個爬蟲先上代碼文字慢慢補 1 # -*- coding: utf-8 -* 2 3 import urllib2 4 import xlwt 5

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

CA external 令行 sta 項目程序 str 輸入 tar 前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。一、代碼實現 1、修改Scrapy項目中的ite

pythonp爬蟲爬取百度音樂

www code focus rfi aid xtra trac cookie bds #coding=utf-8 import requests import re import time from bs4 import BeautifulSoup

爬蟲 爬國旗

相關推薦

爬蟲爬國旗