Pyhon網路爬蟲學習筆記—抓取本地網頁（一）

阿新 • • 發佈：2018-12-20

如何用Python爬取本地網頁

一、寫出一個簡單的靜態網頁，下面是我隨便寫的一個

網頁原始碼如下


<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>大阿瓦達</title>
    <Link rel="stylesheet" type="text/css" href="main.css">
</head>
<body>
<div class="header">
<body background="image/2.png" style=" background-repeat:no-repeat ;

background-size:100% 100%;

background-attachment: fixed;"></body>
 </div>
>
    <ul class="nav">
        <li><a href="#">Home</a></li>
        <li><a href="#">Site</a></li>
        <li><a href="#">Other</a></li>
    </ul>
</div>
    <div class="main-content">
    <h2>Aritcle</h2>
        <ul class="article">
            <li>
                <img src="image/3.jpg" width="100" height="=90">
                <h3>The bath</h3>
                <p>Say sonmething</p>
            </li>
            <li><img src="image/4.png" width="100" height="=90">
                <h3>The bath</h3>
                <p>Say sonmething</p>
            </li>
        </ul>
    </div>
    <div class="footer">
        <center><p>&copy;mydadadaw</p> </center>
    </div>

</body>
</html>

由於是靜態網頁，我用的是絕對路徑，我就直接存放在桌面的目錄裡： C:\Users\偉\Desktop\網頁作業\另一個網頁作業\11.html

二、解析網頁

第一步：使用BeautifulSoup 解析網頁（這個庫是python自帶的）

Soup = BeautigulSoup(html,’lxml’)

(PS：lxml為解析網頁所需要的庫，在python中這個庫是沒有的，所以我們需要進入cmd 進行自主安裝“pip install lxml”，這裡我會在後面在介紹另外四種解析網頁庫，分別是：”html parser”,”lxml HTML”, ”lxml xml”, ”html 51ib”)

第二步：掃描抓取的東西在哪

資源 = Soup.select(‘???’)

第三步：從標籤中獲得你要的information（資訊）

           ~~<p>~~Something~~</p>~~ （網頁的段落標籤）

                                             tittle = Something

                                             rate = 4.0

BeautifulSoup => CSS Select：

一個網頁的基本結構

Xpath與CSS解析網頁的比較

Xpath：誰，在哪，哪幾個（之後再講）

CSS Select：誰在哪，第幾個，長什麼樣（我們接下來的爬蟲就主要用copy selector找我們需要的內容）

三、寫Python程式碼來爬取我們寫的網頁

這四行程式碼就可以實現我們網頁的爬取

from bs4 import BeautifulSoup
with open('/Users/偉/Desktop/網頁作業/另一個網頁作業/11.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    print(Soup)
'''
這裡 第行的語句的意思是開啟我們這個目錄下的這個網頁檔案，r代表只讀
'''

這樣就把我們整個網頁的資料抓取過來了，但是結果並不是我們想要的

我們要將爬取的網頁進行分析

還是點開我們寫的網頁，抓取我們需要的圖片

找到圖片img這一行，然後右鍵，copy，找到，copy selector

body > div.main-content > ul > li:nth-child(1) > img，這就是我們所需要抓取的圖片的程式碼

    images = Soup.select('body > div.main-content > ul > li:nth-child(1) > img')

放進pycharm（Python編輯器）中進行抓取

後面再列印我們所抓取的圖片資訊

    print(images)

但我們放進python中，它會報錯，因為我們沒有按照他的格式進行

因此，我們要將程式碼

紅色的部分刪除，就可以得到這一類圖片的資訊

這裡和我們加上的兩個圖片完全一致

然後我們在抓取我們需要的其他資訊，附上全部程式碼

from bs4 import BeautifulSoup

with open('/Users/偉/Desktop/網頁作業/另一個網頁作業/11.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    images = Soup.select('body > div.main-content > ul > li > img')
    p = Soup.select('body > div.main-content > ul > li > p')
    tittle = Soup.select('body > div.main-content > ul > li > h3')
    print(images,p,tittle,sep='\n-----\n')

這就是我們抓取到的資訊

[<img height="=90" src="image/3.jpg" width="100"/>, <img height="=90" src="image/4.png" width="100"/>]
-----
[<p>Say sonmething</p>, <p>Say sonmething</p>]
-----
[<h3>The bath</h3>, <h3>The bath</h3>]

雖然，這裡抓取到的東西還是會有網頁的程式碼，所以我們要對內容進行篩選

在程式碼中加上判斷結構即可得到我們所需要的內容

如有補充，我會在後續加上

Pyhon網路爬蟲學習筆記—抓取本地網頁（一）

如何用Python爬取本地網頁一、寫出一個簡單的靜態網頁，下面是我隨便寫的一個網頁原始碼如下 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT

docker學習筆記之建立本地映象（三）docker build的結果

docker build -t tonyxinminghui/test:v1 . Sending build context to Docker daemon 586.9 MB Step 1 : FROM ubuntu:latest —> f753

C#.Net 設計模式學習筆記之創建型（一）

應用種類單件 src nag abstract 子類指定相關 1、抽象工廠（Abstract Factory）模式常規的對象創建方法： //創建一個Road對象 Road road =new Road(); new 的問題：實現依賴，不能應對“具

C#學習筆記-域用戶認證（一）

byte name urn validate finally tostring code date geb public Boolean ValidateDomainUser(string Domain, string UserName, string

python程式設計：從入門到實踐學習筆記-Django開發使用者賬戶（一）

讓使用者能夠輸入資料（表單）在建立使用者賬戶身份驗證系統之前，先新增幾個頁面，讓使用者能偶輸入資料。新增新主題、新增新條目以及編輯既有條目。新增新主題 1.用於新增主題的表單建立一個forms.py檔案與models.py放在同一目錄下。 from django import

Spring Cloud學習筆記之微服務實現（一）（Spring Boot+IDEA）

我們先使用Spring Boot實現一個微服務，業務非常簡單： 1.商品微服務，通過商品id查詢商品的微服務 2.訂單微服務，通過訂單id查詢訂單資料，同時需要呼叫商品微服務查詢出訂單詳情資料對應的商品資料。說明： 1.對於商品微服務而言，商品微服務是服務的提供者，訂單微服務是服務的消費

公開課學習筆記- 哈佛電腦科學CS50（一）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

linux學習筆記之linux常用命令（一）

Linux常用命令檔案處理命令許可權管理命令檔案搜尋命令幫助命令使用者管理命令壓縮解壓命令網路命令關機重啟命令檔案處理命令命令格式命令【-選項】【引數】 ls -la

C++ 學習筆記變數和基本型別（一）

C++ 學習筆記一、變數和基本型別概述型別是所有程式的基礎。型別告訴我們資料代表什麼意思以及可以對資料執行哪些操作。 c++基本型別：字元型整型浮點型 c++ 還提供了可用於自定義資料型別的機制，標準庫正式利用了這些機制定義了許多更復雜的型別，比如可變長字串string 和vector等。此外，

linux學習筆記之常用基本命令（一）

1.幫助命令 man獲取幫助資訊語法：man[命令或配置檔案] help獲得shell內建命令的幫助資訊語法：help 命令例： help cd 常用快捷鍵 ctrl +c: 停止程序 ctrl +l: 清屏 ctrl +q: 退出 tab鍵：補全命令（常用t

學習筆記之MongoDB進階（一）

MongoDB的條件操作符 MongoDB中條件操作符有： (>) 大於 - $gt (<) 小於 - $lt (>=) 大於等於 - $gte (<= ) 小於等於 - $lte $gt -------- greater than

【C++學習筆記】虛基類（一）

1.為什麼要引入虛基類？在類的繼承中，如果我們遇到這種情況： “B和C同時繼承A，而B和C都被D繼承” 在此時，假如A中有一個函式fun（）當然同時被B和C繼承，而D按理說繼承了B和C，同時也應該能呼叫fun()函式。這一呼叫就有問題了，到底是要呼叫B中的fun（）函式還是呼叫C中的f

BC404學習筆記-ABAP面向物件程式設計（一）-基礎

只摘錄注意事項和難以理解的地方。總的來說和JAVA、C++面向物件程式設計技術差不太多。類、繼承、封裝之類的概念在abapoo中也都有體現。面向物件的物件簡單理解就是現實世界的事物，到程式設計世界就用

Shader學習筆記，通過GLSL實現（一）

最近一直在專心研究利用GLSL編寫Shader，寫點東西將自己學的總結一下，把自己學習shader的經歷分享一下，希望能對有興趣學習shader的同學有些幫助，但這些玩意還算不上教程，很多都是我自己在學習中的問題以及如何解決的，有什麼不足還請各位指出，想要系統的學習GLSL的話還是推薦大家看《OpenGL

編寫網路爬蟲獲取餓了麼商家資訊（一）

利用HttpClient和Jsoup兩種工具分別進行爬取資料 maven座標： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

Swift學習筆記六：常見概念（一）

七、常見概念1.範圍Range、ClosedRange和NSRange的使用//區間分為閉區間和半開區間import Foundationlet closedRange: ClosedRange = 1...3 //閉區間let intArray = ["1", "2", "

Linux驅動學習筆記----------IIC框架與流程（一）

歷時一個月期末課程設計終於結束了！發現好多東西忘記了，iic流程也有些淡忘，有點慌，夜深人靜的時候就整理下吧！還有，杭州最近熱的我腦袋都不好用了！關於iic： 1.是一種資料傳輸協議（spi,usb,sdio,uart…）

python網路爬蟲與資訊採取之解析網頁（三）---- BeautifulSoup庫的導航樹例項

上篇我們講到了通過標籤的名稱和屬性來查詢標籤的findAll（),本篇將講解如何通過標籤在文件中的位置進行查詢------導航樹一篇文章，可以將其標籤分為子標籤，父標籤和兄弟標籤。而導航樹的功能就是

學習筆記之數據庫（一）——操作數據庫

swd 否則 userdel upd 執行文件忘記 alt 不能 ets 用戶權限的相關命令：權限類型： 01 讀 read r 4 02 寫 write w 2 03 執行 excute x 1 組權限：開發組：將所有開發人員添加到一個組中，這個組中所有

Python網路爬蟲學習筆記——第一個爬蟲程式

執行環境語言 Python3 第三方庫 pip install reqeusts pip install BeautifulSoup4 pip install jupyter 線上編輯器安裝 jupyter 模組後，在cmd視窗中執行命令jupyte

Pyhon網路爬蟲學習筆記—抓取本地網頁（一）

如何用Python爬取本地網頁

一、寫出一個簡單的靜態網頁，下面是我隨便寫的一個

二、解析網頁

第一步：使用BeautifulSoup 解析網頁（這個庫是python自帶的）

第二步：掃描抓取的東西在哪

第三步：從標籤中獲得你要的information（資訊）

紅色的部分刪除，就可以得到這一類圖片的資訊

這裡和我們加上的兩個圖片完全一致

然後我們在抓取我們需要的其他資訊，附上全部程式碼

這就是我們抓取到的資訊

雖然，這裡抓取到的東西還是會有網頁的程式碼，所以我們要對內容進行篩選

相關推薦