爬蟲基礎-1-爬取小說資源

阿新 • • 發佈：2018-11-29

小生部落格：http://xsboke.blog.51cto.com

小生 Q Q：1770058260

                    -------謝謝您的參考，如有疑問，歡迎交流

使用BeautifulSoup爬取網站資源

注:此文僅供學習參考,如果該網站平凡文學負責人有異議,請留言,作者將刪除此文章有關平凡文學的所有資訊.

BeautifulSoup簡介：

我的理解:BeautifulSoup就是用來解析Html的模組,詳細資訊還請參考BeautifulSoup4.2.0 中文文件

隨便找了一個小說網站,沒有爬取文章內容,主要是理解一下BeautifulSoup4的使用方法,如果搞懂本文了,爬取文章都不是問題.

程式碼最後生成一個字典如下：

{'玄幻':[['書名1','作者1','書連結1'],
         ['書名2','作者2','書連結2']
       ],
 '恐怖':[['書名1','作者1','書連結1'],
         ['書名2','作者2','書連結2']
       ]
}

程式碼正文:

請安裝requests和bs4(BeautifulSoup)


from bs4 import BeautifulSoup
import requests,sys
sys.setrecursionlimit(10000)  # 防止超出遞迴深度報錯

Url_Index = 'http://m.pfwx.com'

r = requests.get(Url_Index)
r.encoding = 'utf-8'
content = r.text
soup = BeautifulSoup(content,features='html.parser')

target = soup.find('div',class_='nav') # 只獲取第一個包含class='nav'屬性的div標籤
tar = target.find_all('a')  # 過濾出a標籤

# 獲取index的欄目
Index_Menu = {}
for so in tar:
    TEXT = so.get_text()
    HREF = Url_Index + so['href']       # 獲取href屬性的值
    Index_Menu[TEXT] = HREF

# 獲取分類
Class_Page = Index_Menu['分類']
r = requests.get(url=Class_Page)
r.encoding = 'utf-8'
content = r.text
soup = BeautifulSoup(content,features='html.parser')
tag = soup.body.find_all('li',class_='prev')
Menu = {}
for so in tag:
    TEXT = so.get_text() # 獲取文字
    HREF = so.a.attrs['href'] # 獲取a標籤中的href屬性
    # 生成各個分類的Url
    Category_Url = Url_Index + HREF
    Menu[TEXT] = Category_Url

# 獲取每種分類的書資訊
for ClassName in Menu:
    Book_List = []
    def make(url):
        '''獲取所有的書資訊,並且交給函式IF判斷是否還有下一頁,如果有則繼續獲取書的資訊'''
        r = requests.get(url=url)
        content = r.text
        soup = BeautifulSoup(content, features='html.parser')
        target = soup.find_all('a', class_='blue')
        for so in target:
            BookName = so.get_text()                        # 書名
            IMHOW_NAME = so.next_sibling.split('/')[1]  # 作者名
            HREF = Url_Index + so['href']               # 書的連結
            Book_List.append([BookName,IMHOW_NAME,HREF])

        Next_Page = soup.find('div', class_='page')
        IF(NextPage=Next_Page)

    def IF(NextPage):
        '''判斷是否還有下一頁,如果有則繼續迴圈'''
        for Page in NextPage.find_all('a'):
            if Page.get_text() == '下頁':
                '''判斷如果還有下頁,則繼續獲取書的資訊'''
                Url = Url_Index + Page['href']
                make(url=Url)

    url=Menu[ClassName] # 獲取當前分類的URL
    make(url) # 獲取當前分類的所有書資訊
    Menu[ClassName] = Book_List # 最後生成的資訊都在這個字典裡面;格式{'玄幻':[['書名1','作者1','書連結1'],['書名2','作者2','書連結2']]}

爬蟲基礎-1-爬取小說資源

小生部落格：http://xsboke.blog.51cto.com 小生 Q Q：1770058260 -------謝謝您的參考，如有疑問，歡迎交流使用BeautifulSoup爬取網站資源注:此文僅供學習參考,如果該網站平凡文學負責人有異議

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

python從爬蟲基礎到爬取網路小說例項

一.爬蟲基礎 1.1 requests類　　1.1.1 request的7個方法 requests.request() 例項化一個物件,擁有以下方法 requests.get(url, *args) requests.head() 頭資訊

爬蟲基礎-2-爬取招聘資訊

小生部落格：http://xsboke.blog.51cto.com -------謝謝您的參考，如有疑問，歡迎交流注意:BOSS應該是做了防爬蟲的功能，好像是如果頻繁訪問,就需要輸入一下驗證碼.為了節省時間，當前只爬取了熱門城市的python相關職位資訊

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

[記錄]Java網路爬蟲基礎和抓取網站資料的兩個小例項

前段時間在學習爬蟲，並從網路抓取了一些簡單的資料，記錄一下。抓取分成下面3個部分： 1、網路請求 2、解析抓取下來的頁面，並且處理亂碼或者解壓程式碼的問題 3、拿到指定的資料、資源完整程式碼如下：第一個例項： /** * 從某網站查詢所有帖子標題 * 把所有

Python爬蟲(1)------爬取網站圖片

初學爬蟲的學習流程環境 python 3.6 使用 urlib庫進行爬取內容熟悉爬蟲首先對百度進行爬取 # -*- coding: utf-8 -*- import urllib.request url = 'http://www

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

第一次爬蟲記錄，爬取商品基礎資料以及圖片

需求爬取商品價格、銷量、評論、收藏量、款式等基本資料以及詳情圖。遇見的主要問題以及解決方式對於一個從來沒寫過爬蟲的人來說很多地方都是很困惑的。而且公司要求兩三天就得出結果並用於生產，再加上自己輕微的程式碼潔癖，綜合起來還是有些壓力的。所以也沒

爬蟲學習1-爬從基礎jsoup

java爬從使用jsoup工具包，主要利用了css的選擇器選擇元素獲取資訊，demo程式碼如下： package com.jack.spiderone.test; import org.jsoup.Connection; import org.jsoup.Jsoup; i

Python爬蟲之如何爬取抖音小姐姐的視訊

介紹這次爬的是當下大火的APP--抖音，批量下載一個使用者釋出的所有視訊。各位也應該知道，抖音只

爬蟲-----selenium模塊自動爬取網頁資源

pri 輸入文字豆瓣移動相關 append 字符 scrollto value selenium介紹與使用 1 selenium介紹　　什麽是selenium？selenium是Python的一個第三方庫，對外提供的接口可以操作瀏覽器，然後讓瀏覽器完成自動化的操

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

爬蟲基礎-1-爬取小說資源

BeautifulSoup簡介：

隨便找了一個小說網站,沒有爬取文章內容,主要是理解一下BeautifulSoup4的使用方法,如果搞懂本文了,爬取文章都不是問題.

程式碼最後生成一個字典如下：

程式碼正文:

相關推薦