起點中文網小說爬取-etree，xpath，os

阿新 • • 發佈：2019-02-21

tps div html utf requests import bject finally fin

本文章主要是lxml庫的etree解析抽取與xpath解析的應用，還使用了os庫寫文件

import os
import requests
from lxml import etree#lxml庫解析HTML、xml文件抽取想要的數據
#設計模式--面向對象
class Spider(object):
    def start_request(self):
        #1.請求網站拿到數據，抽取小說名創建文件夾，抽取
        response=requests.get(‘https://www.qidian.com/all‘)
        # print(response.text)
        html=etree.HTML(response.text)#結構化
        Bigsrc_list=html.xpath(‘//div[@class="book-mid-info"]/h4/a/@href‘)
        #//:選取元素，而不考慮元素的具體位置;     @:選取屬性
        Bigtit_list=html.xpath(‘//div[@class="book-mid-info"]/h4/a/text()‘)
        # print(Bigsrc_list,Bigtit_list)
        for Bigsrc,Bigtit in zip(Bigsrc_list,Bigtit_list):
            if os.path.exists(Bigtit)==False:#如果不存在文件夾名為該小說名，就創建
                os.mkdir(Bigtit)
            # print(Bigsrc,Bigtit)
            self.file_data(Bigsrc,Bigtit)#調用下一個函數

    def file_data(self, Bigsrc, Bigtit):
        # 2.請求小說，拿到數據，抽取章名，抽取文章鏈接
        response = requests.get("https:" + Bigsrc)#補上缺少的https前綴
        html = etree.HTML(response.text)#etree.HTML可用於在python代碼中嵌入“html文本”。
        listsrc_list = html.xpath(‘//ul[@class="cf"]/li/a/@href‘)
        listtit_list = html.xpath(‘//ul[@class="cf"]/li/a/text()‘)
        for Listsrc, Listtit in zip(listsrc_list, listtit_list):
            # print(Listsrc, Listtit)
            self.finally_file(Listsrc, Listtit,Bigtit)

    def finally_file(self,Listsrc, Listtit,Bigtit):
        # 3.請求文章拿到抽取文章內容，創建文件保存到相應文件夾
        response=requests.get("https:"+Listsrc)
        html=etree.HTML(response.text)#結構化
        content="\n".join(html.xpath(‘//div[@class="read-content j_readContent"]/p/text()‘))
        #S.join()返回一個字符串,元素之間的分隔符是S
        file_name=Bigtit+"\\"+Listtit+".txt"
        #創建Bigtit文件夾下的Listtit.txt文件
        print("正在存儲文件"+file_name)
        with open(file_name,"a",encoding="utf-8")as f:
            f.write(content)
if __name__==‘__main__‘:
    spider = Spider()
    spider.start_request()

tps div html utf requests import bject finally fin 本文章主要是lxml庫的etree解析抽取與xpath解析的應用，還使用了os庫寫文件 import os import requests from lxml impor

Python3爬取起點中文網閱讀量資訊，解決文字反爬~~~附原始碼

起點中文網，在“數字”上設定了文字反爬，使用了自定義的文字檔案ttf通過瀏覽器的“檢查”顯示的是“□”，但是可以在網頁原始碼中找到對映後的數字正則爬的是網頁原始碼，xpath是預設utf-8解析網頁資料，用xpath爬出來的也是方框，因此只能使用正則匹配爬取關鍵數字資訊本例以小說《斗羅大陸》為例

爬取起點中文網小說介紹信息

OS tex 2.0 user agent lee idp url pri 字數的信息（word）沒有得到缺失 import xlwt import requests from lxml import etree import time all_info_list=[]

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

起點中文網分析

居中 per header box rop pla clip 技術分享圖片 Header： 1.定位上下左右居中：left top bottom 均設為0；（除去文字圖片盒子均適合不？） 2.box-sizing:border-box; //控制盒子大小不變 3.是不是為

爬取N個網頁，並將其記錄

color 完整 encode down utf 模塊 round 初始函數挖的坑，終於能填上了，先共享出來，大家有個對比參考。也幫忙找找錯誤。我也正在看，看看原來是哪裏出了問題。下面這段代碼已經實現了網頁的爬取：其效果為：下面給出詳細說明：上圖中出現的 _

pyhont---信息的爬取與提取---bs4，BeautifulSoup，re庫

元組簽名 mpi 操作一個轉義字符方法 ext tar pyhont---信息的爬取與提取---bs4，BeautifulSoup，re庫用於對獲取到的頁面文本進行提取 BeautifulSoup庫的理解：BeautifulSoup庫是解析、遍歷、維護"標簽樹"的

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

牛客網小白月賽1 B，I

hide print cout const map ostream splay typedef inf 1 #include <stdio.h> 2 #include <math.h> 3 #include <string.h>

Python3爬蟲(1)_使用Urllib進行網絡爬取

onkeydown role dism 百度 parse format enter art 百度百科網絡爬蟲又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者，是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

微信，爬取每日一句，發送至多人，多個群

ever ear con nbsp ret gin 定時任務 linu url Timer(5, send_news) 每日一句，發送至多人，多個群 1 # -*- coding: utf-8 -*- 2 #from __future__ import unicod

Python爬取抖音APP，竟然只需要十行程式碼

環境說明環境： python 3.7.1 centos 7.4 pip 10.0.1 部署 [[email protected] ~]# python3.7 --version Python 3.7.1 [[email protected] ~]#

豆瓣網post 爬取帶驗證碼

# -*- coding: utf-8 -*- import scrapy import requests from ..bao.jiema import get_number fromdata = { "source": "movie", "redir": "https://movie.douban

scrapy 下爬取不同的網站，使用同一個settings時，設定自己的settings各個引數

比如有project1，和project2兩個網站要爬取，第一個網站已經使用了settings中的配置，那麼project2的配置需要在project2.py中自定義，如下，放到custom_settings 這個字典裡： custom_settings = { 'ITEM_PIPEL

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

爬取 48048 條評論，解讀 9.3 分的「毒液」是否值得一看？

本文轉載自：https://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652568697&idx=1&sn=e2e52e392996202b2e4142462594e953&chksm=8464d433b3

起點中文網小說爬取-etree，xpath，os

相關推薦