python編程快速上手之第10章實踐項目參考答案(11.11.2)

阿新 • • 發佈：2017-05-08

答案 nic .com final timeout pre image 保存圖片 iframe

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import os
import re
import urllib
import json
import socket
import urllib.request
import urllib.parse
import urllib.error
# 設置超時
import time

timeout = 5
socket.setdefaulttimeout(timeout)


class Crawler:
    # 睡眠時長
    __time_sleep = 0.1
    __amount = 0
     
__start_amount = 0
    __counter = 0

    # 獲取圖片url內容等
    # t 下載圖片時間間隔
    def __init__(self, t=0.1):
        self.time_sleep = t

    # 開始獲取
    def __getImages(self, word=‘美女‘):
        search = urllib.parse.quote(word)
        # pn int 圖片數
        pn = self.__start_amount
        while pn < self.__amount 
:

            headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}
            url = ‘http://image.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=‘ + search + ‘&cg=girl&pn=‘ + str(
                pn) + ‘&rn=60&itg=0&z=0&fr=&width=&height=&lm=-1&ic=0&s=0&st=-1&gsm=1e0000001e 
‘
            # 設置header防ban
            try:
                time.sleep(self.time_sleep)
                req = urllib.request.Request(url=url, headers=headers)
                page = urllib.request.urlopen(req)
                data = page.read().decode(‘utf8‘)
            except UnicodeDecodeError as e:
                print(‘-----UnicodeDecodeErrorurl:‘, url)
            except urllib.error.URLError as e:
                print("-----urlErrorurl:", url)
            except socket.timeout as e:
                print("-----socket timout:", url)
            else:
                # 解析json
                json_data = json.loads(data)
                self.__saveImage(json_data, word)
                # 讀取下一頁
                print("下載下一頁")
                pn += 60
            finally:
                page.close()
        print("下載任務結束")
        return

    # 保存圖片
    def __saveImage(self, json, word):

        if not os.path.exists("./" + word):
            os.mkdir("./" + word)
        # 判斷名字是否重復，獲取圖片長度
        self.__counter = len(os.listdir(‘./‘ + word)) + 1
        for info in json[‘imgs‘]:
            try:
                if self.__downloadImage(info, word) == False:
                    self.__counter -= 1
            except urllib.error.HTTPError as urllib_err:
                print(urllib_err)
                pass
            except Exception as err:
                time.sleep(1)
                print(err);
                print("產生未知錯誤，放棄保存")
                continue
            finally:
                print("小黃圖+1,已有" + str(self.__counter) + "張小黃圖")
                self.__counter += 1
        return

    # 下載圖片
    def __downloadImage(self, info, word):
        time.sleep(self.time_sleep)
        fix = self.__getFix(info[‘objURL‘])
        urllib.request.urlretrieve(info[‘objURL‘], ‘./‘ + word + ‘/‘ + str(self.__counter) + str(fix))

    # 獲取後綴名
    def __getFix(self, name):
        m = re.search(r‘\.[^\.]*$‘, name)
        if m.group(0) and len(m.group(0)) <= 5:
            return m.group(0)
        else:
            return ‘.jpeg‘

    # 獲取前綴
    def __getPrefix(self, name):
        return name[:name.find(‘.‘)]

    # page_number 需要抓取數據頁數 總抓取圖片數量為 頁數x60
    # start_page 起始頁數
    def start(self, word, spider_page_num=1, start_page=1):
        self.__start_amount = (start_page - 1) * 60
        self.__amount = spider_page_num * 60 + self.__start_amount
        self.__getImages(word)


crawler = Crawler(0.05)
crawler.start(‘科幻‘, 1, 5)
#crawler.start(‘二次元 性感‘, 3, 3)
# crawler.start(‘帥哥‘, 5)

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from time import sleep
userid=input(‘username‘)
passid=input(‘password‘)
sendtxt="hello"#郵件內容
sendto=input(‘sendto‘)
#打開Firefox
driver = webdriver.Firefox()
driver.get(‘http://mail.10086.cn/‘)#郵箱網址
#填寫用戶名
emailElem = driver.find_element_by_id(‘txtUser‘)
emailElem.send_keys(userid)#用戶名
#填寫密碼
passwordElem = driver.find_element_by_id(‘txtPass‘)
passwordElem.send_keys(passid)#密碼
passwordElem.submit()
#寫郵件
sleep(10)
write=driver.find_element_by_id(‘btn_compose‘)
write.click()
sleep(10)
iframe_xpath = "//iframe[contains(@id,‘compose_‘)]"
#寫信頁所在的iframe的xpath路徑，通過火狐瀏覽器的firebug插件可以查看到是在一個iframe的頁面內
iframe = driver.find_element_by_xpath(iframe_xpath)
driver.switch_to_frame(iframe)
sleep(5)
driver.find_element_by_id(‘toContaine‘).send_keys(sendto)
driver.find_element_by_id(‘txtSubject‘).send_keys(sendtxt)
driver.find_element_by_id(‘topSend‘).click()

答案 nic .com final timeout pre image 保存圖片 iframe #!/usr/bin/env python # -*- coding:utf-8 -*- import os import re import urllib import

python編程快速上手之第10章實踐項目參考答案(11.11.3)

name driver ret text rul from url .get right from selenium import webdriver from selenium.webdriver.common.keys import Keys import time

python編程快速上手之第10章實踐項目參考答案(12.13.1)

true style span tip 12.1 user python input multi #! python3 # multiplicationTable.py import openpyxl,os from openpyxl.styles import Font

python編程快速上手之第13章實踐項目參考答案(13.6.2)

nbsp python add sha odi log span import imp #! python3 # encoding: UTF-8 import os import docx from docx import Document from docx.shar

python編程快速上手之第15章實踐項目參考答案(17.7.2)

col ges code sid documents mod 編程 bsp tof #! python3 # Import modules and write comments to describe this program. import zipfile, os fr

python編程快速上手之第13章實踐項目參考答案(13.6.1)

encrypted iter close ffi mes python編程實踐項目 reader blog import os,PyPDF2 os.chdir(‘D:\\My Documents‘) for folderName, subfolders, filenam

python編程快速上手之第15章實踐項目參考答案(17.7.3)

lane width ima font height 開始 users nco window #! python3 # encoding: UTF-8 import os,docx from PIL import Image, ImageDraw from PIL imp

python編程快速上手第六章實踐項目參考code

ats 一個 oranges apple 函數第六章項目應該 ble 代碼如下：題目的意思是通過一個函數將列表的列表顯示在組織良好的表格中，每列右對齊 tableData = [[‘apples‘, ‘oranges‘, ‘cherries‘, ‘banana‘],

《Python編程快速上手》第7.18.1實踐練習

compile 弱密碼 ssd search code 表達小寫 strong tro # -*- coding:utf-8 -*- # 7.18.1 # 強口令檢測 # 寫一個函數，使用正則表達式，確保傳入的口令字符串是強口令 # 長度不少於8個字符，同時包含大小寫，

《Python編程快速上手》第8.9.2實踐練習

cte Language mpi hang 定義 file pytho pil 自定義 first.txt The ADJECTIVE panada walked to the NOUN and then VERB. Anerby NOUN was unaffected b

《Python編程快速上手》第8.9.3實踐練習

join print [] re.search lose 路徑快速自定義 for #!python3 # -*- coding:utf-8 -*- # 8.9.3 #打開指定路徑中所有.txt文件 #用戶輸入正則，將匹配行輸出，輸出文件名 import re,os

《Python編程快速上手》第9.8.3實踐練習

Python編程快速上手#9.8.3 消除缺失的編號 """ 1.spam001.txt,spam002.txt,spam005.txt,如此。將前邊的消除，然後後邊逐一遞增 2.空出一些編號，指定空出區域。然後修改編號。 """ import re,os,shutil #find_path=input(

《Python編程快速上手》8.9.1實踐練習

clas 列表保存 class 剪貼板錯誤 ont port 快速 #!python3 #運行 py mcb.pyw save spam ，剪貼板內容就關鍵字spam保存 #py mcb.pyw spam 加載spam 對應內容到剪貼板 #py mcb.pyw list

Python 編程快速上手讓繁瑣工作自動化-第十章實踐項目 10.8 調試硬幣拋擲

技術 http watermark db4 二次兩個圖片簡單 -o 下面程序的意圖是一個簡單的硬幣拋擲猜測遊戲。玩家有兩次猜測機會（這是一個簡單的遊戲）。但是，程序中有一些缺陷。讓程序運行幾次，找出缺陷，使該程序能正確運行。上面的是書中的代碼找到兩個缺陷1、沒有指明0

Python編程快速上手-讓繁瑣工作自動化第三章函數習題及其答案

IE 編寫一個程序引用 turn area glob pam on() 為什麽第三章函數習題及其答案 1、為什麽在程序中加入函數會有好處？答：函數減少了重復的代碼。這讓程序更短，更容易閱讀，更容易修改。 2、函數中的代碼何時執行: 在函數被定義時，還是在函數被調用時

Python編程快速上手-讓繁瑣工作自動化第四章列表練習題及其答案

淺拷貝 insert 練習 append 編寫 nan 表達式任務 nas 第四章列表練習題及其答案 1、什麽是[]? 答：空的列表值，它是一個列表，不包含任何列表項。這類似於‘‘是空的字符串值。 2、如何將‘hello‘賦值給列表的第三個值，而列表保存在名為spam的

《Python編程快速上手+讓繁瑣工作自動化》第三章實踐項目

val bre ror try 函數什麽實踐項目字符串驚奇 1 Collatz 序列　　編寫一個名為 collatz()的函數，它有一個名為 number 的參數。如果參數是偶數，那麽 collatz()就打印出 number // 2，並返回該值。如果 numbe

Python 編程快速上手讓繁瑣工作自動化-第八章實踐項目

用戶 txt tex 例如可能命令找到有關 libs Python 新手，寫來請大家指正 8.9.1 擴展多重剪貼板擴展本章中的多重剪貼板程序，增加一個delete <keyword>命令行參數，它將從shelf 中刪除一個關鍵字。然後添加一個delet

Python 編程快速上手讓繁瑣工作自動化-第九章實踐項目 9.8.1選擇性拷貝

在哪裏 size 項目 pdf log RoCE jpg water 報錯 9.8.1 選擇性拷貝編寫一個程序，遍歷一個目錄樹，查找特定擴展名的文件（諸如.pdf 或.jpg）。不論這些文件的位置在哪裏，將它們拷貝到一個新的文件夾中。這段代碼有一個問題，新的文件夾：cop

Python 編程快速上手第十一章 Web scrapping

soup href 列表前言 n) 自動模擬鼠標相關 lec 前言這一章講了如何在 Web 上抓取相關的信息，工具是三個模塊： webbrowser 模塊：用於打開瀏覽器指定頁面 requests 模塊：用於下載文件 Beautiful Soup 模塊：用於解析

python編程快速上手之第10章實踐項目參考答案(11.11.2)

相關推薦