python學習之簡單python爬蟲

阿新 • • 發佈：2018-12-21

參考文章來源：

基本算是第一次使用python寫程式碼，所以直接參考了已有的部落格的編寫過程。

依然遇到了問題：

問題一：

urllib 和 urllib2的區別有哪些？

用urllib2獲取到網頁內容後，不能對內容進行read()操作。

但是使用urllib 就可以對該網頁內容進行read()

問題二：

print u'請輸入url:',

這一行報錯：

SyntaxError: Non-ASCII character '\xe8' in file /Users/xialei/PycharmProjects/spider/venv/code/__init__.py on line 28, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

解決方法：

在檔案頭部加入：

# -*- coding: utf-8 -*-

指定編碼格式

問題三：

print u'請輸入url:',

這個程式碼為什麼要再字串前面加上 u 字母？

為什麼最後有逗號？

實際不加u，效果是一樣的

實際不加逗號，效果也是一樣的

最終實際程式：

# -*- coding: utf-8 -*-
import urllib
import re

# page = urllib.urlopen('http://tieba.baidu.com/p/1753935195')
# htmlCode = page.read();
# #print htmlCode
#
# pageFile = open('pageCode.txt','w')
# pageFile.write(htmlCode)
# pageFile.close()


def get_html(url):
    page =  urllib.urlopen(url)
    html = page.read()
    return html

def get_image(html_code):
    reg = r'src="(.+?\.jpg)" width'
    reg_img = re.compile(reg)
    imgList = reg_img.findall(html_code)
    x = 0
    for img in imgList:
        print img
        urllib.urlretrieve(img, '%s.jpg' % x)
        x += 1

print '請輸入url： '
url = raw_input()
if url:
    pass
else:
    url = 'http://tieba.baidu.com/p/1753935195'

html_code = get_html(url)
get_image(html_code)

執行結果：

python學習之簡單python爬蟲

參考文章來源：基本算是第一次使用python寫程式碼，所以直接參考了已有的部落格的編寫過程。依然遇到了問題：問題一： urllib 和 urllib2的區別有哪些？用urllib2獲取到網頁內容後，不能對內容進行read()操作。但是使用urll

《Python學習之路 -- Python基礎之叠代器及for循環工作原理》

pre 循環 next 是我我們 png 捕獲模擬檢查　　提到叠代器不得不說叠代器協議，叠代器協議是指：對象必須提供一個__next__()方法，執行該方法要麽返回叠代中的下一項，要麽就拋出一個StopIteration異常（相當於報錯的意思）以終止叠代。然而遵循這

《Python學習之路 -- Python基礎之裝飾器》

接收學習之路代碼內部 AS OS 如果 col PE 　　裝飾器，本質上是一個函數，更加直觀的說，裝飾器就是等於高階函數 + 函數嵌套 + 閉包，裝飾器是具有某個基礎功能的函數，這種功能可以加成到其他函數上，使得其他函數的功能更加強大。除此以外，裝飾器還有兩個重要

《Python學習之路 -- Python基礎之切片》

nas col 結束了解默認值對象學習好的 tuple 　　切片從字面上的意思也能很好的了解，就是將某個東西切成一個片段。也就是說，切片是一種對數據的操作，截取數據中的一個片段，字符串，列表和元組都支持切片。 # 語法：操作對象[起始位置：結束位置：步長] #

Python學習之路——Python基礎之運算符

學習之路 type text 技術計算 python基礎 tex fff oss 算術運算先and 後 or 先計算括號內執行順序: 從前到後結果 True OR ==> True True And ==> 繼續走 False Or

Python學習之路——Python基礎之基本資料型別(列表、元組和字典)

基本資料型別數字字串列表 list 元組 tuple 字典 dict 布林值 bool 列表和元組列表：有序，元素可以被修改元組：書寫格式：元組的一級元素不可被修改，不能被增加或者刪除，一般寫元租的時候，推薦在最後加入',' 索引：v =

Python學習之路——Python基礎之基本數據類型

開始 bit mark end sprint upper sdi com 字符串轉換基本數據類型數字字符串列表 list 元組 tuple 字典 dict 布爾值 bool ×××的魔法數字將字符串轉換為數字:int a = "123" print(ty

Python學習之路——Python基礎之基本數據類型(列表、元組和字典)

bre mark 有序數據 str sca 索引更新蘋果基本數據類型數字字符串列表 list 元組 tuple 字典 dict 布爾值 bool 列表和元組列表：有序，元素可以被修改元組：書寫格式：元組的一級元素不可被修改，不能被增加或者刪除，一般寫

Python學習之路——Python基礎之基本資料型別

基本資料型別數字字串列表 list 元祖 tuple 字典 dict 布林值 bool ×××的魔法數字將字串轉換為數字:int a = "123" print(type(a),a) b = int(a) print(type(b),b) n

python學習之路--python基礎之列表操作

本文主要介紹下python列表的的一些基本操作列表是我們在python程式設計中常用的資料型別之一，通過列表我們可以對資料實現最方便的儲存、修改等操作。定義列表 1 names=['ZhangSan','LiSi','WangWu'] 列表的訪問：通過下表來訪問列表中的元素，下標從0開始計數,還可以反

Python學習之解決python下載第三方依賴速度慢的問題

原因：通過pip命令直接下載，一般下載的資源存放在國外的伺服器上，導致下載速度慢、下載過程中報錯；解決方法：通過pip的命令引數，從國內的下載源，國外的替換為國內的映象，進行目標包的下載；具體引數： -i 引數，後跟國內的映象地址；例如：pip install -i&nbs

Python學習之路---Python 字串

Python訪問字串中的值 Python不支援單字元型別，單字元也在Python也是作為一個字串使用。 Python訪問子字串，可以使用方括號來擷取字串，如下例項： i = "Hello World" print "i[0]:",i[0] 以上例項執

Python學習之路---Python函式

Python函式函式是組織好的，可重複使用的，用來實現單一，或相關聯功能的程式碼段。函式能提高應用的模組性，和程式碼的重複利用率。定義一個函式你可以定義一個由自己想要功能的函式，以下是簡單的規則：函式程式碼塊以 def 關鍵詞開頭，後接

python學習之路-第三天-一個簡單的腳本

tro 說明 .py else zipfile rect dylib 環境 cef 現在有一個需求：把某個目錄下的文件備份到指定到另外一個目錄下，而且壓縮後文件為zip文件 # -*- coding:utf-8 -*- #! /usr/bin/python # Filena

python學習之爬蟲：安裝requests模塊

works 2.7 err fix errno 13 lec dna cal logs 終端輸入命令：pip install requests 如果報錯： p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menl

python學習之爬蟲：BeautifulSoup

att clas XML http ng- making bsp style span 一、功能： BeautifulSoup是用來從HTML或XML中提取數據的Python庫。二、導入： from bs4 import BeautifulSoup import bs4

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

Python學習之路：socket簡單實例

acc 學習綁定 span spa bind local int code 客戶端 1 #客戶端 2 import socket 3 4 client = socket.socket()#相當於聲明socket類型，同時生成socket連接對象 5 cli

Python學習之路（四）爬蟲（三）HTTP和HTTPS

CP 發出 net 長度現在消息頭理論 LV 模型 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protoc

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

python學習之簡單python爬蟲

相關推薦