Python爬蟲學習（1）

阿新 • • 發佈：2018-01-28

數據 bin des fin load 寫入 all pytho urlopen

接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據

於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >_<

# !/usr/bin/env python
# -*- coding: UTF-8 -*-
# addUser: Gao
# addTime: 2018-01-27 23:06
# description: python爬蟲練習

import urllib2, re, os

# 獲取目標網址
TargetUrl = ‘https://www.imooc.com/course/list‘

# 獲取數據保存路徑
FileName = ‘Download‘

"""
保存圖片
"""
def saveImg(imgUrl, imgName=‘img.jpg‘):
    # 圖片路徑
    imgPath = os.path.join(FileName, imgName)

    # 獲取路徑下圖片信息
    req = urllib2.urlopen(imgUrl)
    buf = req.read()

    # 寫入文件
    with open(imgPath, ‘wb+‘) as f:
        f.write(buf)


"""
判斷文件夾是否存在
"""
if not os.path.exists(os.path.join(os.getcwd(), FileName)):
    # 新建文件夾
    os.mkdir(os.path.join(os.getcwd(), FileName))


# 獲取目標網址內容
result = urllib2.urlopen(TargetUrl)
urlData = result.read()

# 正則匹配獲取圖片地址
imgList = re.findall(r‘src="(.+?\.jpg)‘, urlData)

"""
循環保存圖片
"""
i = 0
for imgUrl in imgList:
    saveImg(‘https:‘+imgUrl, ‘python_‘+str(i)+‘.jpg‘)
    i += 1

Python爬蟲學習（1）

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python爬蟲學習（3）

collect nbsp pri div time urlparse links ews 是否在慕課網學習並創建了一個簡單的爬蟲包，爬取百度百科相關詞條信息程序中會用到第三方解析包（BeautifulSoup4），Windows環境下安裝命令：pip install B

Python爬蟲-速度（1）

Python爬蟲-速度（1）文章目錄 Python爬蟲-速度（1）前言網頁分析介面設計執行效果 018.9.16 Python爬蟲-速度（2） Python爬蟲-速度（3）前言

python---爬蟲51job（1）

這學期學的python，老師每次在上課前會佈置作業，因此再次做下梳理，鞏固知識點 ①使用python程式設計實現上述過程（訪問https://www.51job.com/，在搜尋框輸入關鍵字：python java，用右邊的加號選擇北京、上海、廣州、深圳四個城市），不需要使

$python爬蟲系列（1）——一個簡單的爬蟲實例

name 響應 -s 鏈接實例 blog itl 匹配列表本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。 1. 概述本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下：獲取網頁html文本內容；分析html中圖

$python爬蟲系列（1）——一個簡單的爬蟲例項

本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。 1. 概述本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下：獲取網頁html文字內容；分析html中圖片的html標籤特徵，用正則解析出所有的

python爬蟲學習（2）用tesserocr識別影象驗證碼

在學習爬蟲的過程中難免會遇到驗證碼問題，作為純自動化的爬蟲是不可能手動去輸入驗證碼的。那麼我們就要學會怎麼去識別它。而驗證碼也分很多種類，主要的幾種：（1）影象驗證碼：這是最簡單的一種，也很常見。就比如CSDN登入幾次失敗之後就會出驗證碼。（2）滑塊驗證碼

python爬蟲示例（1）---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

Python基礎學習（1）

Python基礎知識歸納： 1. Python直譯器/編譯器：CPython 當我們從Python官方網站下載並安裝好Python 3.x後，我們就直接獲得了一個官方版本的直譯器：CPython。這個直譯器是用C語言開發的，所以叫CPython。在命令列下執行python就是啟動CPytho

python機器學習（1）python.sklearn庫

1.安裝numpy、scipy、matplotlib、sklearn庫安裝方法：（1）.whl檔案下載地址：http://www.lfd.uci.edu/~gohlke/pythonlibs （2）在下載路徑下開啟dos命令列依次執行 PS:35指python版本3.5、

Python爬蟲例項（1）-爬取一張貓的照片

程式設計這種實用性的工程性語言，光看書、背概念是完全刻舟求劍；learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期，總結之後寫在CSDN上；通過自己感覺非常經典的例項，來表達爬蟲的知識點。話不多說，上一篇描述了爬蟲的原理之後，這一篇搞第一個例

python入門學習（1）——指令碼(常用系統相關命令)

python呼叫linux命令舉例說明： 1.os.system(command)呼叫系統命令 Linux ： >>>import os //必須加否則報錯 >>>os.system("ls") windows DOS: &g

Python爬蟲學習（二）---- 完整的爬蟲體系

完整的爬蟲體系上節已經對爬蟲有了簡單的瞭解和實踐，接下來我通過慕課網的途徑學習到了一個相對完整的框架。為了記錄，特將此經除錯體系置於此，互相學習。平臺 MacOS 10.13.3 PyCharm 2016 Python3.6 主函式 Pyt

Python爬蟲學習（四）正則表示式

正則表示式是用來匹配字串非常強大的工具，在其他程式語言中同樣有正則表示式的概念，Python同樣不例外，利用了正則表示式，我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。貪婪模式與非貪婪模式正則表示式通常用於在文字中查詢匹配的字串。Python裡數量詞

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

Python爬蟲入門（1）：綜述

大家好哈，最近博主在學習Python，學習期間也遇到一些問題，獲得了一些經驗，在此將自己的學習系統地整理下來，如果大家有興趣學習爬蟲的話，可以將這些文章作為參考，也歡迎大家一共分享學習經驗。 Python版本:2.7，Python 3請另尋其他博文。首先爬蟲是什麼？

Python爬蟲實戰（1）——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼，寫的參差不齊，但是其中有很多寫的非常的優秀，程式碼質量很高，規範性也很好，很具有代表性，非常值得我們去學習！~ 寫好一個python爬蟲需要有以下幾個必備條件： 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等)，結構性封裝性好，重

python學習（1）--發郵件

sendmail 服務 exceptio 學習 int AD 密碼 sin smtplib # -*- coding:utf-8 -*- from email.mime.text import MIMEText from email.header import Heade

Django學習（1）——python manage.py startapp app-name新建app報錯問題

__init__ 做了 except 指導 con 學習發現 exceptio ins 作為一個剛接觸python的小白，開始學習Django註定前路漫漫，記錄一下學習過程中的問題和解決方案。感謝“自強學堂”的無私奉獻，根據教程安裝了Djang

Python爬蟲學習（1）

相關推薦