python爬蟲爬取詩詞名句網

阿新 • • 發佈：2018-12-30

使用requests庫，xpath庫

import requests
import time
from lxml import etree


# 去請求頁面的函式
def request_Header(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
    }

    request = requests.get(url=url,headers=headers)
    return request


def get_content_text(all_href):

    request = request_Header(all_href)
    etrees = etree.HTML(request.content)
    # 獲取所有章節的內容  得到一個列表 這是由多個p標籤組成的
    content_text = etrees.xpath('//div[@class="layui-col-md8 layui-col-sm7"]/div/div/p/text()')
    strs_cont = ' '
    for con in content_text:
        strs_cont+=con+'\n'
    print(strs_cont)
    return strs_cont




def main():
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    req = request_Header(url)
    # 得到網頁的內容
    content = req.content
    etrees = etree.HTML(content)
    # 獲取所有章節內容
    text = etrees.xpath('//div[@class="book-mulu"]/ul/li/a')
    fp = open('三國演義.txt','w',encoding='utf8')
    # 遍歷這個列表,挨個獲取
    for a in text:
        # 獲取標題
        title = a.xpath('text()')[0]
        print('正在下載>>>%s'%title)
        # 獲取連線
        href = a.xpath('@href')[0]
        # 拼接url
        all_href = 'http://www.shicimingju.com' + str(href)
        # print(all_href)
        # 去網頁中獲取內容
        get_content = get_content_text(all_href)
        fp.write(title+'\n' + str(get_content)+'\n')
        # time.sleep(2)
        print('結束下載%s' % title)
    fp.close()

if __name__ == '__main__':
    main()

python爬蟲爬取詩詞名句網

使用requests庫，xpath庫 import requests import time from lxml import etree # 去請求頁面的函式 def request_Header(url): headers = { 'User

python爬蟲爬取鬥圖網最新表情包（第二篇）

上一篇文章爬的表情包是套圖，發現還有一千多頁的最新表情包。兩者的網頁結構有點區別，程式碼需要整改下，看下頁面，規律也比較好找。非常氣憤，上一個部落格被其他爬走了，還是一個培訓機構，插了自己的廣告！所有的表情圖片都是在標籤下，數了一下每一頁都是17行，

Python爬蟲-爬取慕課網課程

Python爬取網路圖片使用正則表示式解析Html格式的檔案(其他更好的方法以後會繼續更新) 獲取慕課網課程圖片從網站上獲取課程圖片首先檢視頁面html程式碼圖2 html程式

python 爬蟲爬取煎蛋網妹子圖

前言大家好，這裡是「Python知識圈」爬蟲系列教程。此文首發於「brucepk」公眾號，歡迎大家去關注。此係列教程以例項專案為材料進行分析，從專案中學習 python 爬蟲，跟著我一起學習，每天進步一點點。煎蛋網站煎蛋網.png 很多朋友都反應學 pyt

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

Python爬蟲-爬取開心網主頁(有登入介面-利用cookie)

爬取開心網主頁內容 ========================================== ======================================= =================================== 1 ''' 2 登入開

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

python爬蟲——爬取知網體育學刊引證論文資訊

前言國慶百無聊賴，然後幫一個小姐姐爬取知網資訊，覺得知網算目前處理過的對爬蟲稍微有點防範的網站，遂有了這篇部落格目標爬取知網上2003年體育學刊文獻所有論文的引證論文，包括論文名稱、作者、發表時間，也就是下面紅框所指處點選click處，點選黑框，紅框所

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

python爬蟲 爬取詩詞名句網

相關推薦

python爬蟲爬取詩詞名句網