Python應用之爬取一本pdf

阿新 • • 發佈：2018-11-14

爬取https://max.book118.com網站的某一本書，其實也算不上爬取，只是下載。我這個只是拋磚引玉，大神們可以寫個網站整個文件的爬蟲。

以這本書為列 https://max.book118.com/html/2017/0802/125615287.shtm，再加上批量img2pdf的方法，就可以下載一本書了。具體的分析過程不在此贅述，直接上程式碼（程式碼只是用於本人學習，寫的有些low）

import requests
import os
import json
def savePng(url, fileName):
    root = "//home//Desktop// 
"
    path = root + "//" +  fileName
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        r.raise_for_status()
    with open(path, "wb+") as f:
        f.write(r.content)  
def getPNGName(url):
    req = requests.get(url)
    json_req  
= req.content.decode()
    json_dict= json.loads(json_req)
    print(json_dict)
    return json_dict["NextPage"] 
def getNextPageURL(pngName):
    url = "https://view42.book118.com/pdf/GetNextPage/?f=dXAyMjI2LTIuYm9vazExOC5jb20uODBcMzQ4NDU0MS01OTgxMGI5MDMwM2JjLnBkZg==&img=%s&isMobile=false&isNet=True&readLimit=kVJSwRWfuu2BpuMVDJqlnw==& 
[email protected][email protected][email protected]==" % pngName
    return url
def getCurPageUrl(pngName):
    url = "https://view42.book118.com/img/?img=%s" % pngName
    return url 
 
#url = getNextPageURL("[email protected]cA4m4rqRBGs=")
url = "https://view42.book118.com/pdf/GetNextPage/?f=dXAyMjI2LTIuYm9vazExOC5jb20uODBcMzQ4NDU0MS01OTgxMGI5MDMwM2JjLnBkZg==&[email protected]WAYh&isMobile=false&isNet=True&readLimit=kVJSwRWfuu2BpuMVDJqlnw==&[email protected][email protected][email protected]=="   
for curPageIndex in range(0, 486):
    #根據當前圖片名字，請求下一張圖片名字
    pngName = getPNGName(url)
    #根據下一張圖片名字拼湊url
    url = getCurPageUrl(pngName)
    #下載PNG，記錄圖片名字
    savePng(url, str(curPageIndex) + ".PNG")
    #得到下一頁圖片url
    url = getNextPageURL(pngName)

Python應用之爬取一本pdf

爬取https://max.book118.com網站的某一本書，其實也算不上爬取，只是下載。我這個只是拋磚引玉，大神們可以寫個網站整個文件的爬蟲。以這本書為列 https://max.book118.com/html/2017/0802/125615287.shtm，再加上批量img2p

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

用Python分分鐘爬取豆瓣本周口碑榜，就是有這麽秀！

再看 bsp 小夥伴網址 cap 本周提取統一 ext 平常在生活中，不知道大家是怎麽找電影的，反正小編是通過電影本周口碑榜來找的，個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜，不如我們來爬下豆瓣電影本周口碑榜上的電影吧，怎麽爬嘞，當然是用我們的Pytho

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

Python爬蟲之爬取動態頁面資料

很多網站通常會用到Ajax和動態HTML技術，因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。先看看如何分辨網站時靜態的還是動態的，正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的，簡便的方法就是在

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

Python爬蟲之爬取內涵吧段子（urllib.request）

引言在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

python用爬蟲爬取一張圖片

dsl com request http des get resp con quest 代碼： import requestsresponse = requests.get(‘https://s1.hdslb.com/bfs/static/jinkela/video/ass

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦！廖雪峰官網網址學完python就開始我們的實戰吧！首先我們就來學習下python爬蟲學習Python爬蟲，先是介紹一個最容易上手的庫urll

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

通過python的urllib.request庫來爬取一只貓

com cat alt cnblogs write amazon 技術分享 color lac 我們實驗的網站很簡單，就是一個關於貓的圖片的網站：http://placekitten.com 代碼如下： import urllib.request respond =

python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲高考項目最近好多小夥伴說想搞個項目實戰類的，我就花了一點時間做了一個爬蟲項目（在代碼復制的時候可能會有點問題，縮格一下就沒有問題了）想要獲取更多源碼或者答疑或者或者交流學習可以加群：725479218 # -*- coding:utf-8 -*- from funct

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

聰哥哥教你學Python之爬取金庸系列的小說

話不多說，程式碼貼起: # -*- coding: utf-8 -*- import urllib.request from bs4 import BeautifulSoup #獲取每本書的章節內容 def get_chapter(url): # 獲取網頁的原始碼 html

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Python應用之爬取一本pdf

相關推薦