使用requests配合【lxml+xpath】爬取B2B網站

阿新 • • 發佈：2019-01-22

@匯入類庫

import requests
from lxml import etree
import time

@準備請求頭，以偽裝客戶端瀏覽器

# 請求頭，可以由F12頁面控制檯或fidder等抓包工具獲取
header_base = {
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',
    'Upgrade-Insecure-Requests' 
: '1',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}

@逐頁爬取資料，並寫入檔案

    # 要爬取資料的 url
    url_str = 'http://sell.gandianli.com/list.php?catid=3234&page=1'

    # 傳送請求，接受響應 

    res = requests.get(url=url_str, headers=header_base)
    # print(res.text)
    # print(res.status_code)

    # 獲得元素樹
    html = etree.HTML(res.text)

    # 獲取所有class屬性為pages的div元素下的cite元素的文字
    # 此處是為了獲得分頁資料的總頁面數
    elements = html.xpath("//div[@class='pages']/cite/text()")

    # 提取出頁面數
    page_count = int(elements[0 
].split('/')[1][:-1])

    # 開啟檔案，爬取並寫入內容
    with open("products.csv","a",encoding="utf-8") as file:

        # 逐個爬取每一頁內容
        for i in range(1, page_count + 1):

            # 爬取頁面內容
            get_one_page(i,file)

            # 休息一下再爬取，訪問頻率過高容易被封IP
            time.sleep(3)

@get_one_page函式實現，其功能是爬取單頁內容

# 爬取單頁內容
# page_num = 頁碼
# file = 要寫入的檔案
def get_one_page(page_num,file):
    # 構造具體頁面的url（使用抓包工具或頁面控制檯分析獲取）
    url_str = 'http://sell.gandianli.com/list.php?catid=3234&page=' + str(page_num)
    print(url_str)

    # 傳送請求，接受響應
    res = requests.get(url=url_str, headers=header_base)
    # print(res.status_code)
    # print(res.text)

    # 得到頁面元素樹物件
    html = etree.HTML(res.text)

    # 使用 XPATH 規則提取裡面的資訊

    '''
    # txt_list = html.xpath("//ul[@class='extension_ul']/li/h3/a/text()")
    for txt in txt_list:
        print(txt)
    '''

    # 提取所有class屬性為extension_ul的無序列表下的li元素
    li_list = html.xpath("//ul[@class='extension_ul']/li")

    # 迴圈訪問 每個 li
    for li in li_list:

        # 從li元素中提取產品名稱、價格、公司資訊
        texts = li.xpath("./h3/a/text() \
                  | ./div[@class='extension_right']/span/text()  \
                  | ./div[@class='extension_right']/p[1]/a/text()")
        # print(texts)
        # print(len(texts))

        # 定義一個結果列表，用於儲存處理後的資料
        result_list = []

        # 遍歷和清洗資料
        for txt in texts:

            # 判斷去除空格後的資料是否為空，若為空，則丟棄
            tmp = txt.strip()
            if tmp:
                result_list.append(txt.strip())

        # 判斷資料數量是否正確，否則丟棄
        if len(result_list) == 3:

            # 將產品名稱、價格、公司使用逗號分割，組織在一起
            # 這裡推薦使用英文逗號，因為便於轉化為csv檔案，以供將來做資料分析
            item = ','.join(result_list)
            print(item)

            # 將資料拼接，並寫入檔案
            file.write(item + '\n')

@實現效果
描述你妹啊

使用requests配合【lxml+xpath】爬取B2B網站

@匯入類庫 import requests from lxml import etree import time @準備請求頭，以偽裝客戶端瀏覽器 # 請求頭，可以由F12頁面控制檯或fi

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - from bs4 import BeautifulSoup import u

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【網路爬蟲】爬取豆瓣電影Top250評論

前言本爬蟲大致流程為：（1）分析網頁——分析網站結構（2）傳送請求——通過requests傳送請求（3）響應請求——得到請求響應的頁面（4）解析響應——分析頁面，得到想要的資料（5）儲存文字——以txt格式儲存使用環境 anaconda3 pyt

【附上解釋】爬取A股所有上市公司的資訊並存儲到資料庫或者是csv檔案中

輸入到mysql版輸出會有警告，但是不影響。附上了詳細的解釋~ import pandas as pd import requests import random from bs4 import BeautifulSoup import pymysql f

【大數據】爬取全部的校園新聞

series scl nco rip read 數據處理 info imp taf 1.從新聞url獲取新聞詳情：字典,anews def anews(url): newsDetail={} res=requests.get(url)

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

java程式設計師菜鳥進階（八）分享一個爬取B2B網站資訊的程式

前段時間，女朋友如願以償的找到了銷售的工作，第一天正式上班還挺高興，第二天就開始愁眉苦臉了。就是因為他這銷售實在是太麻煩，以後每天要到一些B2B網站去找一些客戶資訊，每天要找幾百條，剛開始我還安慰的說，沒事，以後我幫你找，我接手這工作第一天還很老實，第一天用了不到一個小時的時間幫忙找了八十條，但到

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

【每週一爬】爬取盜版小說網的小說

【本帖持續更新，直到能將一本書全部爬到一個.txt檔案中】一：準備工作爬取的網站地址：http://b.faloo.com/tag/6293.html &

【Python3爬蟲-爬小說】爬取某小說網小說2/2--利用下一頁抓

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 詳細思路參照程式碼註釋：如下：網址無任何規律，但是頁面有一個下一頁。那是要抓到下一頁的地址就能把小說全部抓取。 - from bs4 import BeautifulSoup

【Python3爬蟲-爬小說】爬取某小說網小說1/2--利用網址順序抓

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 練習目標：爬取https://b.faloo.com/BuyBook.aspx?id=526024 《我的高中女友門》 - 解釋請看程式碼註釋：主要是網頁是xxx/1.h

【python爬蟲-爬微博】爬取王思聰所有微博資料

1. 準備：代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。以下是通過瀏覽器除錯獲得

【Python】【爬蟲】爬取網易、騰訊、新浪、搜狐新聞到本地

這個實驗主要爬取新聞網站首頁的新聞內容儲存到本地，爬取內容有標題、時間、來源、評論數和正文。工具：python 3.6 谷歌瀏覽器爬取過程：一、安裝庫：urllib、requests、BeautifulSoup 1、urllib庫：Urlli

【專案】爬取+匯入+定時器

需求： #爬取資料 #檢查資料庫是否存在 #不:儲存資料庫 #是:不儲存 #每個月執行一次 #_*_ coding=utf-8 _*_ from html.parser import HTMLParser import requests import re imp

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

【爬蟲入門5】爬取酷狗TOP500

#coding utf-8 import time import requests from bs4 import BeautifulSoup class spider_KG_top500(object): def __init__(self):

python爬蟲【二】爬取新聞

在一個新聞站點或者絢麗的網頁會有許多id和class 我們可以通過觀察來看到我們需要的資訊在那些id和class下但是這裡介紹兩種快速便捷的方法第一種使用谷歌瀏覽器自帶的開發者工具或者安裝infolite外掛安裝方法看這篇https:/

使用requests配合【lxml+xpath】爬取B2B網站

相關推薦