python爬取古詩文網站詩文一欄的所有詩詞

阿新 • • 發佈：2018-12-02

寫在前面

曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音
曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年

卷一

前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將其中的詩文一欄文章全部爬下來了。此一文以記之。

卷二

爬取整個過程如偷盜一般，條理清晰，速戰速決。且聽細細道來。

首先獲取詩文一欄所有標籤的URL，然後進入標籤中，獲取所有詩文詳情頁的URL
爬取每個詳情頁中的詳細的、喜歡的資訊，如：題目，作者，內容
將獲取到的資訊儲存到資料庫中

卷三

匯入有用的包

#請求包
import requests
#解析網頁的包
from lxml import etree
#匯入資料庫的類，該類在另一個檔案中實現，後面會有
from write_database import Write_databases

類的建構函式

class GuShiWen():
    def __init__(self):
        self.main_url = 'https://www.gushiwen.org/'
        self.headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
        }
        self.bash_url = 'https://so.gushiwen.org/'
        #初始化資料庫
        self.database = Write_databases()

首先獲取詩文一欄所有標籤的URL

    def get_all_shiw_urls(self):
        res = requests.get(self.main_url,headers=self.headers)
        html = etree.HTML(res.text)
        sons_div_lists = html.xpath(".//div[@class='sons'][1]/div[@class='cont']/a")[:-2]
        for a_info in sons_div_lists:
            a_href = a_info.xpath('./@href')[0]
            a_text = a_info.xpath('./text()')
            self.get_all_content_urls(a_href)

獲取某個標籤中所有詩文的url，並構造為可用的URL

    def get_all_content_urls(self,urls):
        text_html = requests.get(urls,headers=self.headers)
        html = etree.HTML(text_html.text)
        text_title = html.xpath('.//div[@class="title"][1]/h1/text()')
        text_dev = html.xpath('.//div[@class="sons"][1]/div')
        for item in text_dev:
            text_span = item.xpath('./span')
            for span_item in text_span:
                try:
                    text_a_href = span_item.xpath('./a/@href')[0]
                    text_a_text = span_item.xpath('.//text()')
                except:
                    continue
                self.get_poetry(self.bash_url + text_a_href)

爬取詩文的詳細資訊，並寫入到資料庫

    def get_poetry(self,url):
        poetry_html = requests.get(url,headers=self.headers)
        html = etree.HTML(poetry_html.text)
        poetry_div = html.xpath('.//div[@class="sons"]/div')[0]
        poetry_title = poetry_div.xpath('./h1/text()')[0]
        poetry_author = poetry_div.xpath('./p//text()')
        poetry_author = " ".join(poetry_author)
        poetry_cont = poetry_div.xpath('./div[2]//text()')
        poetry_cont = " ".join(poetry_cont)
        print("====="*10+'===='+'===')
        print(poetry_title)
        print(poetry_author)
        print(poetry_cont)
        self.write_database(poetry_title,poetry_author,poetry_cont)

    def write_database(self,title,author,cont):
        self.database.insert_data(title,author,cont)

最後,main函式

def main():
    gusw = GuShiWen()
    gusw.get_all_shiw_urls()

卷四

實現資料庫類,主要包含的功能有，連線資料庫，將爬到的資訊寫入到資料庫，隨機讀出資料庫中某一首詩詞的資訊，關閉資料庫

import pymysql
import random

class Write_databases():
    def __init__(self):
        self.db = pymysql.connect(
            host = '127.0.0.1',
            user = 'root',
            password = 'root',
            database = 'gushiw',
            port = 3306
        )
        self.cursor = self.db.cursor()

    def insert_data(self,title,author,cont):
        sql = '''
            insert into gushiw_table(id,poetry_title,poetry_author,poetry_cont)
            values(null,%s,%s,%s)
        '''
        self.cursor.execute(sql,(title,author,cont))
        self.db.commit()
    def read_data(self):
        id = random.randint(127,4017)
        print(id)
        sql = 'select * from gushiw_table where id = %s'

        value = self.cursor.execute(sql,(id,))

        value = self.cursor.fetchall()
        print(value)
        title = value[0][1]
        author = value[0][2]
        cont = value[0][3]
        print(title,author,cont)
    def close_databases(self):
        self.db.close()

未完待續，之後寫一個軟體，將隨機讀出資料庫中的詩文，並展示。

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年卷一前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python 爬取視覺中國網站

python 爬取視覺中國設計師社團網站閱讀本文需要 5 分鐘如今版權越來越重要了，特別是今年。前幾天，在一個的圈子裡看到一條訊息，有公司專門針對一些圖片對不知情使用者索賠，說一句請各位使用圖片的時候明確是否侵權。藉此來學習一下 python 如何用

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

利用python爬取實習僧網站上的資料

最近在找實習，就順便想到用python爬取一些職位資訊看看，有哪些崗位比較缺人。 #_*_coding:utf-8_*_ import requests from bs4 import BeautifulSoup import xlwt import r

python 爬取簡單靜態網站之電影天堂

大家好。今天我在這裡與大家分享一下簡單的網頁抓取。一、準備工作：下載並安裝好python3.x，並且配置好環境變數。二、檢查安裝的軟體是否可用：在cmd視窗下分別輸入python -V 命令與 pip -V命令（注意大小寫）若出現版本資訊即表示安裝

python 爬取《延禧攻略》所有的演員參演的電視劇

# -*- coding: utf-8 -*- #@Time :18-9-23 上午11:22 #@Author : LiMeng #@Email : [email protected] #@File : yanxigonglvu.py #Software:PyCh

Python爬蟲爬取古詩文網站專案分享

作為一個靠python自學入門的菜鳥，想和大家分享自己寫的第一個也是目前為止唯一一個爬蟲程式碼寫爬蟲要具備的能力基礎：python入門基礎，html5基礎知識，然後這邊用的是scrapy框架，所以

使用正則表示式爬取古詩文網唐詩300首

思路先從唐詩300首頁面獲取所有唐詩詳情頁的連結; 再從每一首唐詩的詳情頁提取標題、作者、朝代、內容等資訊。原始碼 # !/usr/bin/env python # -*- coding:utf-8 -*- import re import r

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

python爬取數據被限制？一招教你偽造反爬技術！

python 爬蟲編程程序員1.Headers限制這應該是最常見的，最基本的反爬蟲手段，主要是初步判斷你是否是真實的瀏覽器在操作。這個一般很好解決，把瀏覽器中的Headers信息復制上去就OK了。值得註意的是，很多網站只需要userAgent信息就可以通過，但是有的網站還需要驗證一些其他的信息，比如

Python爬取異步加載的網站selenium+PhantomJS

ron .com .html scrip psu 語言 sel 文字 get 一個網站的爬蟲腳本，在調試的時候發現問題：腳本跑：content-type用text/xml 可以post成功，但post中body的內容沒有生效，所有的響應都是當前日期；用applicatio

最後輕松一夏，周末利用python爬取“陳翔六點半”搞笑視頻！

多看獲取數據也會程序員 copy 是什麽查看 ima 周末覺得程序員再忙也需要給自己安排一點娛樂時間，對自己好點，自己對自己不好，誰會？自己娛樂一般會有：跑步、看電影、小視頻，而小視頻是最家常的娛樂方式，看得最多的小視頻是「陳翔六點半」，咦！拍得搞笑

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

python爬取自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊，並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格，因為自如是用一張圖片和offset來顯示價格，所以不能直接獲得。但我們可以通過將圖片轉為文字，再通過偏移量將數字組合為價格。在這裡我們使用的是Ch

Python爬取網站美女照片

上次無意之中看到一個網站，裡面全是美女的照片，我就心想，哪天有時間了得把這網站的所有美女照片都得爬下來。今天有時間，寫了點程式碼，爬去了網站的所有照片。附上戰果！圖片實在是太多了，爬了一個多小時，還在爬.... 先附上所有的原始碼： # -*- coding: utf-8 -*-

Python爬取小說網站頁面製作電子書

#-*- coding:utf-8 -*- from bs4 import BeautifulSoup from urlparse import urljoin import requests url="http://www.jinyongwang.com/yi/{page}.html

Python爬蟲爬取美劇網站

一直有愛看美劇的習慣，一方面鍛鍊一下英語聽力，一方面打發一下時間。之前是能在視訊網站上面線上看的，可是自從廣電總局的限制令之後，進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是，作為一個宅diao的我又怎甘心沒劇追呢，所以網上隨便查了一下就找到一個能用迅雷下載的美劇

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面

卷一

卷二

卷三

卷四

相關推薦