爬蟲實戰----簡書的爬取和儲存

阿新 • • 發佈：2018-11-30

網站：

https://www.jianshu.com/

網站資料結構分析：

滑輪拉到最下面：

這是一個懶載入，只有點選閱讀更多的時候，才會有後續的資料，我們可以使用selenium。

並且可以設定點選的次數，程式碼如下：

browser = webdriver.Chrome()
browser.get('https://www.jianshu.com/')

for i in range(3):
    # 將滑輪滑到底部
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)

for i in range(5):
    # 嘗試點選閱讀更多的按鈕
    try:
        button = browser.find_element_by_class_name('load-more')
        button.click()
        time.sleep(2)
    except Exception as e:
        pass

提取資料：

需要的資料都在a標籤中，提取資料程式碼如下：

titles = browser.find_elements_by_class_name('title')

儲存資料：

def db(titles):
    print(titles)
    db = pymysql.connect(host = 'localhost',user = 'root',password='123456',port=3306,db='images360',charset='utf8')
    cursor = db.cursor()
    for info in titles:
        # print(info)
        sql = "insert into  jianshu values('%s','%s')" % (info.text,info.get_attribute('href'))
        try:
            cursor.execute(sql)
            print('Successful')
            db.commit()
        except Exception as e:
            print('Failed',e)
    cursor.close()
    db.close()

資料庫和表都是自己建立的。執行之後就可以獲得自己想要的結果了。

建立資料庫程式碼如下：

CREATE DATABASE images360

建立表的程式碼如下：

CREATE TABLE jianshu
(
title VARCHAR(255),
href VARCHAR(255)
)

爬蟲實戰----簡書的爬取和儲存

網站： https://www.jianshu.com/ 網站資料結構分析：滑輪拉到最下面：這是一個懶載入，只有點選閱讀更多的時候，才會有後續的資料，我們可以使用selenium。並且可以設定點選的次數，程式碼如下： browser = webd

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

爬蟲實戰--JS破解+爬取製藥食品

網址如下： http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

from selenium import webdriver import time from bs4 import BeautifulSoup browser = webdriver.Chrome() browser.get('https://user.qzone.qq.com') user ='241

Python3.X 爬蟲實戰（併發爬取）

1 背景在這一系列開始前我們就說過，簡單的爬蟲很容易，但是要完成一個高效健壯的爬蟲不是一個簡單的事情，這一系列我們已經明白了爬蟲相關的如下核心知識點。基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了（譬如老闆讓你定期留意觀

Python爬蟲——實戰三：爬取蘇寧易購的商品價格(渲染引擎方法)

蘇寧易購的商品價格請求URL為 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_10_010_0100101_20268_1000000_

python3 [爬蟲實戰] selenium + requests 爬取安居客

很簡單，這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結因為她用的scrapy框架，感覺有些大才小用了，所以就直接用了一個requests庫，selenium 和xpath進行一整頁資料的爬取獲取的內容：包括地區名，地

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

在京東的單個產品頁面上，通過檢視原始碼檢查html，可以看到 <span class="p-price"><span>￥</span><span class="price J-p-1279836"></sp

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

爬取東方財富網文章標題和正文並儲存的程式碼。自己知道寫的很爛，不過主要是為了自己備忘，也為了以後回頭看看自己的爛作品，哈哈哈。 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import B

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Python - 爬蟲爬取和登陸github

用API搜尋GitHub中star數最多的前十個庫，並用post方法登陸並點選收藏一用API搜尋GitHub中star數最多的前十個庫利用GitHub提供的API爬取前十個star數量最多的Python庫 GitHub提供了很多專門為爬蟲準

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎

目錄 1.Intro 2.Source 1.Intro 檔名：scheduleEngine.py 模組名：排程引擎引用庫： random time gc os sys date

[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌

目錄 1.Intro 2.Source 1.Intro 檔名：spiderLog.py 模組名：爬蟲日誌引用庫： logging 功能：日誌寫入到文字，包含普通訊息、警告、錯誤、異常等，可以跟蹤爬蟲執行過程。 &nb

爬蟲實戰----簡書的爬取和儲存

相關推薦