python爬蟲三大解析資料方法：bs4 及爬小說網案例

阿新 • • 發佈：2018-11-17

bs4 python獨有可以將html文件轉成bs物件，可以直接呼叫bs物件的屬性進行解析

安裝

pip install bs4

本地html Beautiful(“open(‘路徑’)”,‘lxml’)
網路html Beautiful(‘網路資料’, ‘lxml’)

常用屬性和方法

class_='class避免系統衝突加 _'!!!

from bs4 import BeautifulSoup

fp = open('本地.html')
soup = BeautifulSoup(fp, 'lxml')

# 標籤名查詢 

print(soup.div)  # 只能找到第一個

# 獲取標籤的屬性
print(soup.a.atters)  # 取a標籤的所有屬性
print(soup.a.atters['href'])  # 取a標籤的href屬性值

# 取內容
print(soup.p.string)  # 取當前標籤的文字內容
print(soup.p.text)  # 標籤下所有子文字內容
print(soup.p.get_text)

# find查詢符合要求的第一個標籤!
print(soup.find('a', class_='class避免系統衝突加 _'))
print(soup.find( 
'a', id='XX'))

# find_all 同find 返回列表
print(soup.find_All('a'))
print(soup.find_All('a', limit=2))  # 只取前兩個

# 選擇器 >表示下面一級
print(soup.select('div > img')[0])  # div下直系img標籤
print(soup.select('div img')[0])  # 空格可以表示多個層級

bs4爬小說網指定小說標題及內容

from bs4 import BeautifulSoup
import requests

url = 'http://www.shicimingju.com/book/sanguoyanyi.html' 


headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}

def get_content(get_url):
    """獲取章節內容"""
    content_data = requests.get(url=get_url, headers=headers).text
    soup_content = BeautifulSoup(content_data, 'lxml')
    div = soup_content.find('div', class_='chapter_content')
    con = div.text
    return con


data = requests.get(url=url, headers=headers).text
soup = BeautifulSoup(data, 'lxml')

# 取到 a標籤物件()物件還可以繼續呼叫 包含章節名和連結
a_list = soup.select('.book-mulu > ul > li > a')

with open('./三國演義.txt', 'w', encoding='utf-8') as f:
    for a in a_list:
        title = a.string
        content_url = a.attrs['href']  # 取a中的href屬性
        content_url = 'http://www.shicimingju.com' + content_url
        content = get_content(content_url)
        f.write(title+':'+content+'\n\n\n\n')

python爬蟲三大解析資料方法：bs4 及爬小說網案例

bs4 python獨有可以將html文件轉成bs物件，可以直接呼叫bs物件的屬性進行解析安裝 pip install bs4 本地html Beautiful(“open(‘路徑’)”,‘lxml’) 網路html Beautiful

python爬蟲三大解析資料方法：xpath 及爬段子網案例

下載 pip install lxml 瀏覽器外掛外掛xpath安裝，XPath Helper 瀏覽器快捷鍵control+shift+x 用於測試自己的xpath是否寫對了注意 etree建立物件時 etree.parse('本地路徑') 或 et

python爬蟲三大解析資料方法：正則及圖片下載案例

基本正則用法回顧 # 提取python key = 'javapythonc++php' print(re.findall('python', key)[0]) # 提取hello world key = '<html><h1>hello world</h

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

Python爬蟲之requests庫(三)：傳送表單資料和JSON資料

import requests 一、傳送表單資料要傳送表單資料，只需要將一個字典傳遞給引數data payload = {'key1': 'value1', 'key2': 'value

python爬蟲系統學習十一：常見反爬蟲機制與應對方法

資料頭User-Agent反爬蟲機制解析我們小時候都聽過一首兒歌。我說一個開頭，大家肯定能把剩下的幾句背出來：小兔子乖乖，把門開啟... 當我們使用瀏覽器訪問網站的時候，瀏覽器會發送一小段資訊給網站，我們稱為Request Headers,在這個頭部資訊裡面包含了本

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

Python爬蟲學習==>第一章：Python3+Pip環境配置

sof 環境 pts window https 有時 naconda 步驟管家前置操作軟件名：anaconda 版本：Anaconda3-5.0.1-Windows-x86_64清華鏡像下載鏈接：https://mirrors.tuna.tsinghua.ed

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Python爬蟲學習==>第二章：MongoDB環境配置

擴展建立 body 網絡 dash blog 虛擬 bson 階段　　學習目的： MongoDB的安裝正式步驟（VMWare 虛擬機上無法安裝這個MongoDB的自啟動服務，如果你能辦到，請多賜教） Step1：MongoDB的簡介

Python爬蟲新手進階版：怎樣讀取非結構化、圖像、視頻、語音數據

image clas 訓練在線的功能方式 base64編碼 contain width 通過open讀取之後會返回一個圖像文件對象，後續所有的圖像處理都基於該對象進行。上述代碼執行後，通過 img.show() 會調用系統默認的圖像瀏覽器查看打

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

Python爬蟲lxml解析實戰

img 標簽 lxml display XML score 解析 url 子節點 XPath常用規則 / 從當前節點選取直接子節點 // 從當前節點選取子孫節點 .

Python檔案操作中的方法：.write()換行

active =Truewhile active: message =input("\nPlease input your name:\n") if message =='q': break print("welcome " + message + " come to our

Python爬蟲之解析網頁

常用的類庫為lxml, BeautifulSoup, re(正則) 以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/' 網頁分析部分網頁原始碼 <ul class="lists">

python爬蟲並將資料儲存到MySQL或Excel中

爬蟲爬取的是豆瓣top250圖書，以儲存到MySQL為例，流程如下： 1.先建表，可以用命令列，也可以用資料庫視覺化軟體，建立好需要用的到的欄位 2.寫好爬蟲，並在爬蟲中連線資料庫，把爬下來的資料按對應的欄位填入資料庫中 # -*- coding: utf-8 -*- # Captain

python爬蟲三大解析資料方法：bs4 及爬小說網案例

安裝

常用屬性和方法

bs4爬小說網指定小說標題及內容

相關推薦