爬取起點中文網小說介紹信息

阿新 • • 發佈：2018-04-18

OS tex 2.0 user agent lee idp url pri

字數的信息（word）沒有得到缺失

import xlwt
import requests
from lxml import etree
import time

all_info_list=[]
headers={    
    #‘User-Agent‘:‘Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0‘
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 
‘
}
def get_info(url):
    html=requests.get(url,headers=headers)
    selector=etree.HTML(html.text)
    infos=selector.xpath(‘//ul[@class="all-img-list cf"]/li‘)
    for info in infos:
        title=info.xpath("div[2]/h4/a/text()")[0]
        author=info.xpath("div[2]/p[1]/a[1]/text()")[0]
        style_1=info.xpath(" 
div[2]/p[1]/a[2]/text()")[0]
        style_2=info.xpath("div[2]/p[1]/a[3]/text()")[0]
        style=style_1+‘.‘+style_2
        complete=info.xpath("div[2]/p[1]/span/text()")[0]
        introduce=info.xpath("div[2]/p[2]/text()")[0].strip()
        word=info.xpath("div[2]/p[3]/span/text()")[0].strip(‘萬字‘)
        info_list 
=[title,author,style,complete,introduce,word]
        all_info_list.append(info_list)
    time.sleep(1)
    #print(all_info_list)

if __name__==‘__main__‘:
    urls=[‘https://www.qidian.com/all?page={}‘.format(str(i)) for i in range(1,2)]
    for url in urls:
        get_info(url)
    #表頭
    header=[‘title‘,‘author‘,‘style‘,‘complete‘,‘introduce‘,‘word‘]
    #建薄
    book=xlwt.Workbook(encoding=‘utf-8‘)
    #建表
    sheet=book.add_sheet(‘Sheet1‘)
    #寫表頭
    for h in range (len(header)):
        sheet.write(0,h,header[h])
    i=1
    for list in all_info_list:
        j=0
        for data in list:
            sheet.write(i,j,data)
            j+=1
        i+=1
book.save(‘qidianzuopin.xls‘)

技術分享圖片

爬取起點中文網小說介紹信息

OS tex 2.0 user agent lee idp url pri 字數的信息（word）沒有得到缺失 import xlwt import requests from lxml import etree import time all_info_list=[]

Python3爬取起點中文網閱讀量資訊，解決文字反爬~~~附原始碼

起點中文網，在“數字”上設定了文字反爬，使用了自定義的文字檔案ttf通過瀏覽器的“檢查”顯示的是“□”，但是可以在網頁原始碼中找到對映後的數字正則爬的是網頁原始碼，xpath是預設utf-8解析網頁資料，用xpath爬出來的也是方框，因此只能使用正則匹配爬取關鍵數字資訊本例以小說《斗羅大陸》為例

Node.js爬蟲-爬取慕課網課程信息

reac 分享 function apt txt sta eject 賦值 find 第一次學習Node.js爬蟲，所以這時一個簡單的爬蟲，Node.js的好處就是可以並發的執行這個爬蟲主要就是獲取慕課網的課程信息，並把獲得的信息存儲到一個文件中，其中要用到cheerio

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

Scrapy抓取起點中文網排行榜

pro 起點 type [1] -m += 描述頁面名稱項目名稱：qidian 項目描述：利用scrapy抓取七點中文網的“完本榜”總榜的500本小說，抓取內容包括：小說名稱，作者，類別，然後保存為CSV文件目標URL：https://www.qidian.com/

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

起點中文網小說爬取-etree，xpath，os

tps div html utf requests import bject finally fin 本文章主要是lxml庫的etree解析抽取與xpath解析的應用，還使用了os庫寫文件 import os import requests from lxml impor

用crawl spider爬取起點網小說信息

models anti arc pub work 全部 see 效率 rand 起點作為主流的小說網站，在防止數據采集反面還是做了準備的，其對主要的數字采用了自定義的編碼映射取值，想直接通過頁面來實現數據的獲取，是無法實現的。單獨獲取數字還是可以實現的，通過reques

我的第一個Scrapy 程序 - 爬取當當網信息

ref http ide ces passwd lds url ext != 前面已經安裝了Scrapy，下面來實現第一個測試程序。概述 Scrapy是一個爬蟲框架，他的基本流程如下所示（下面截圖來自互聯網）簡單的說，我們需要寫一個item文件，定義返回的數據結構；寫

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Python爬蟲練手小專案：爬取窮遊網酒店資訊 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 前言對於初學者而言，案例主要的是為了讓大家練手，明白其中如何這樣寫的思路，而不是拿著程式碼執行就完事了。基本環境配置系統

爬蟲小練手-爬取慕課網首頁的圖片

#!/usr/bin/python #-*- coding:utf-8 -*- import re import requests import Queue import threading import urllib from bs4 import BeautifulSo

爬取起點小說信息

main 請求 .text web ttl 遍歷 import values for 沒有vip所以並沒爬取小說內容，這裏主要是解決起點小說字數的反反爬 import random import requests import re import csv from font

amazon爬取亞馬遜頁面信息

爬蟲 pyton代碼：# -*- coding: cp936 -*-import requestsfrom lxml import etreeASIN = ‘B00X4WHP5E‘#ASIN = ‘B017R1YFEG‘url = ‘https://www.amazon.com/dp/‘+ASINr = re

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

起點中文網分析

居中 per header box rop pla clip 技術分享圖片 Header： 1.定位上下左右居中：left top bottom 均設為0；（除去文字圖片盒子均適合不？） 2.box-sizing:border-box; //控制盒子大小不變 3.是不是為

Httpclient爬取優酷網

num 內容 htm clas ets author download auth isod 參考：http://www.cnblogs.com/lchzls/p/6277210.html /httpClient/src/main/java/com/louis/youku

05 爬取華為官網VMALL的手機評論

wid gin lec image json數據包線程 size 使用 ges 項目地址：copywang/spiders_collection 實現功能爬取手機界面的所有手機評論列表存儲到MONGODB 步驟獲取首頁的手機列表，並獲取各個手機標題和詳情頁的U

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

爬取起點中文網小說介紹信息

相關推薦