Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

阿新 • • 發佈：2018-12-16

一.分析頁面結構

先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；

二.分析頁面的請求：

首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：

觀察到其url是編碼過的，對其進行urlencode解碼後，得到url如下：

再對其中的引數進行簡化，方法是刪去url中的部分引數，看原有內容是否會發生變化，最終得到的url為：

因為該亞馬遜網站未進行登陸，故只需新增headers,而不用新增cookies,最終拿到html

三.xpath分析

通過copy xpath獲取單獨的xpath後，由ctrl + f 將後面的標號去掉至1 of all ，進而獲取全部資料

拿到的資料由字典方式儲存，根據頁面中的url變化，改變引數的page值來進行訪問；

最終結果：

詳情頁的分析中發現其使用了js進行載入，暫時只想到用senlenium的思路，後續補上

import requests
from lxml import etree
from requests.exceptions import RequestException
from urllib.parse import urljoin
from multiprocessing import Pool

from settings import *

def get_one_page(url,headers,cookies):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None
def parse_one_page(res):

    html = etree.HTML(res)
    title = html.xpath('//*[@id="resultItems"]/li/a/div/div/h5/span/text()')
    price = html.xpath('//*[@id="resultItems"]/li/a/div/div/div/div/span[1]/text()')
    for i in range(len(price)):
        phone = {}
        phone['title'] = title[i]
        phone['price'] = price[i].replace(',','')
        yield phone
def main(num):
    url = 'https://www.amazon.cn/gp/aw/s/ref=is_pg?rh=i%3Aaps%2Ck%3A%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BA&page={}'.format(num)
    response = get_one_page(url,headers,cookies)
    # print(response)
    result = parse_one_page(response)
    result = list(result)
    print(result)
if __name__ == '__main__':
    for i in range(10):
        main(i+1)

程式碼如下：

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；二.分析頁面的請求：首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：觀察到其url

python爬取亞馬遜簡單的書籍資訊

我有個需求就是抓取一些簡單的書籍資訊儲存到mysql資料庫，例如，封面圖片，書名，型別，作者，簡歷，出版社，語種。我比較之後，決定在亞馬遜來實現我的需求。我分析網站後發現，亞馬遜有個高階搜尋的功能，我就通過該搜尋結果來獲取書籍的詳情URL。由於亞馬遜

amazon爬取亞馬遜頁面信息

爬蟲 pyton代碼：# -*- coding: cp936 -*-import requestsfrom lxml import etreeASIN = ‘B00X4WHP5E‘#ASIN = ‘B017R1YFEG‘url = ‘https://www.amazon.com/dp/‘+ASINr = re

乾貨推薦，使用爬蟲程式高效採集亞馬遜商品銷售資料

隨著傳統外貿渠道的疲態，跨境電商現在發展異常火爆，跨境電商未來很有可能成為主流的外貿出口模式，並且成為推動中國外貿經濟的一個重要的突破口。跨境電商主要分跨境進口和跨境出口，主流的跨境電商平臺各有特點。亞馬遜公司作為美國最大的一家網路電子商務公司，是網路上最早開始經營電子商務的公司之一，已成為全球商品品種最

教你用pytbon批量採集亞馬遜商品資料

隨著傳統外貿渠道的疲態，跨境電商現在發展異常火爆，跨境電商未來很有可能成為主流的外貿出口模式，並且成為推動中國外貿經濟的一個重要的突破口。跨境電商主要分跨境進口和跨境出口，主流的跨境電商平臺各有特點。亞馬遜公司作為美國最大的一家網路電子商務公司，是網路上最早開始經營電子商務的公司之一，

pyhton爬蟲（10）——通過亞馬遜商品評論時間分析商品銷量分佈情況

本文以亞馬遜rope bag商品為例，共採集到1989條商品評論時間資料，並選取15年1月——17年7月的1809條資料來繪製分月銷量圖。採集資料的python程式碼如下所示： # -*- coding: utf-8 -*- """ Created o

h5快取和點選商品列表進入詳情頁點選返回按鈕回到上次開啟列表的位置

最近幾天能研究了一下客戶端的快取以及cookie的用法。客戶端快取我個人選用一種就是在頭部新增cache-control：max-age=(時間)秒，首先是在html的meta標籤中新增但是在瀏覽器中檢視到沒有起作用，通過檢查發現這個頁面由於不是靜態頁面是通過後臺數

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

使用正則定位價格，更簡單 import requests import re url = 'https://www.amazon.cn/s/field-keywords=spark' # 隱藏爬蟲 head = {'user-agent':'Mozilla/5.0 (Window

python爬蟲（五）：實戰【4. 爬亞馬遜】

目標：在亞馬遜網站搜尋商品，爬取前10頁的商品（名字和價格）第一步：訪問網站，隱藏爬蟲亞馬遜對爬蟲限制比較嚴格，修改headers、cookies、代理ip 獲取cookie：f12在console輸入document.cookie() 注意：cookies格式為字典，{'a':

開發亞馬遜 MWS中feed上傳修改商品資訊通過GetFeedSubmissionResult來判斷上傳資料是否成功

GetFeedSubmissionResultSample.php 中的方法如下 $config = array ( 'ServiceURL' => $serviceUrl, 'ProxyHost' => null, 'ProxyPort' => -1, 'MaxErrorRetry' =

用python生成亞馬遜 ItenSearch api 的簽名

下面是php的程式碼，轉換成python程式碼 <?php // Your Access Key ID, as taken from the Your Account page $acce

亞馬遜爬蟲-python

找實習遇到的作業：最終結果：實現程式碼分兩部分：抓取書籍id,爬取詳細資料 1： import requests import re from pyquery import PyQuery as pq #提取一個代理 def get_proxy():

亞馬遜S3雲，利用curl獲取檔案列表

#!/bin/bash date=$(for i in $(date "+%H") ; do date "+%a, %d %b %Y $(( 10#$i-8)):%M:%S GMT" ; done) token="token" secret="祕鑰" query2="路徑，不

亞馬遜加入區塊鏈即服務提供商列表

亞馬遜網路服務（AWS）已加入已包含IBM，HP，Microsoft，Oracl

使用pushplus+python實現亞馬遜到貨訊息推送微信

xbox series和ps5發售以來，國內黃牛價格一直居高不下。雖然海外amazon上ps5補貨很少而且基本撐不過一分鐘，但是xbox series系列明顯要好搶很多。日亞、德亞的xbox series x/s都可以直郵中國大陸，所以我們只需要藉助指令碼，監控相關網頁的動態，在補貨的第一時刻通

亞馬遜的VR購物新體驗！網購者的福利來了！

strong ear 百萬 cnblogs 發展新功能提前 vr技術似的　　（VR開發網2017年5月5日訊）跟蹤亞馬遜在VR中的工作可能是棘手的，因為公司在似乎涉及多個領域時，響應媒體查詢而聞名遐邇。　　該公司正在通過其Lumberyard開發引擎幫助制作VR

亞馬遜 Listing的轉化率竟然近乎100%

亞馬遜轉化率英雄好漢廣告產品想做好亞馬遜，賣家必須關註的一個最重要的問題，便是Listing的轉化率。有流量沒意義，如何能把它變成實在的訂單，讓買家迅速剁手、盡快成交才是重點。關於提高轉化率的問題，難倒了一眾英雄好漢!不過近日，小編看到一朵“奇葩”。賣家小L分享，自己的某個產品，

亞馬遜CEO貝佐斯財富或超比爾蓋茨

比爾蓋茨福布斯亞馬遜公司財富凈資產 TechWeb報道根據福布斯的消息，亞馬遜公司估價不斷創下歷史新高，這也使得亞馬遜公司CEO貝佐斯的凈資產不斷提升。截至周五股市收盤，貝佐斯凈資產增長28億美元至847億美元，創下歷史新高。同時他也成為了財富增長最快的億萬富翁，距離比爾蓋茨的差距

新浪雲、阿裏雲、百度雲、谷歌雲、亞馬遜雲

存在實現常用 sof ava 解決 http 只需要產品新浪雲：http://sae.sina.com.cn/ 阿裏雲：http://www.aliyun.com/百度雲：http://yun.baidu.com/谷歌雲：https://developers.go

亞馬遜為什麽能吞噬世界？貝索斯有這麽一種獨特的戰略思維

ons 挑戰超過繼續 href 難題 com 勞動力改進虎嗅註：亞馬遜當下態勢讓人想到《孫子兵法》裏的四個字：“風林火山”，意為“其疾如風，其徐如林，侵掠如火，不動如山。”然而亞馬遜是何以做到的？除了堅持投資長期，還有什麽獨特的戰略思維？這裏有篇文章或可一讀。

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構

相關推薦