1. 程式人生 > >利用Jsoup爬取天貓列表頁資料

利用Jsoup爬取天貓列表頁資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁.

本文針對的是店內搜尋頁

以下是獲取網頁資料:

/**
	 * @param URL 根據URL獲取document 
	 */
	public static Document getDocument(String URL) {
		Connection conn = null;
		Document doc = null;
		int count = 0;
		while (doc == null && count < 3000) {
			try {
				conn = Jsoup.connect(URL);
				doc = conn.get();
			} catch (IOException e) {
				e.printStackTrace();
			}
			count++;
		}
		return doc;
	}

解析網頁中的節點,獲取資料
/**
	 * @param prdListUrl
	 *            :產品所在 列表頁
	 * @param dataId
	 *            :產品的資料ID
	 * @throws Exception 
	 */
	public static Map<String,String> getProductInfo(String prdListUrl,String dataId) throws Exception{
		Map<String,String> productInfo = new HashMap<String,String>();
		Document doc = GetTmall.getDocument(prdListUrl);
		Elements div_J_TItems = doc.select(".J_TItems");
		if(div_J_TItems!=null && !div_J_TItems.isEmpty()){
			Elements item5line1s = div_J_TItems.get(0).children(); 
			for(Element item5line1 : item5line1s ){
				Elements items = item5line1.select(".item ");
				if(items != null && !items.isEmpty()){
					for(Element item : items){
						String prdId = item.attr("data-id");
						if(prdId.equals(dataId)){
							Elements c_prices = item.select(".detail .attribute .cprice-area .c-price");
							productInfo.put("price", c_prices.get(0).text());
							Elements sale_nums = item.select(".detail .attribute .sale-area .sale-num");
							productInfo.put("saleNum", sale_nums.get(0).text());
						}
					}
				}
			}
		}
		//System.out.println("商品網址:"+prdListUrl+"  商品編號 :"+dataId);
		//System.out.println("銷售量:"+productInfo.get("saleNum")+"銷售價:"+productInfo.get("price"));
		return productInfo;
	}


相關推薦

利用Jsoup列表資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁 以下是獲取網頁資料: /** * @param URL 根據URL獲取document

scrapy 商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

如何評論資料

(本文原作於2016年3月5日,有刪改) 一、原理 首先在瀏覽器位址列中輸入https://www.tmall.com/開啟天貓商城,任意檢索某一商品,以奶粉為例,搜尋結果如下圖所示: 任意點開其中的某個商品: 這是我們常見的網頁,由文字、圖

國際、京東全球購、淘寶全球購的商品資料

公司內部mini專案–智慧選品 “智慧選品”專案主要是方便採購人員瞭解其他競品平臺的商品資料,將其他平臺上賣的特別好的商品資料展示給採購人員,方便他們去採購商品,擴大公司自己的商品,所以就需要爬取其他平臺的資料,本著需求出發,這裡主要爬取天貓國際、京東全球購、

通過商品評論例項分析Pythonajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式,本文使用的工具如下: 工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

selenium跳過webdriver檢測並商品數據

-a src 速度 tor lee lac chrome瀏覽器 自動 oca 目錄 簡介 編寫思路 使用教程 演示圖片 源代碼

Python 大眾點評 50 資料,最好吃的成都火鍋根本想不到!

    成都到處都是火鍋店,有名的店,稍微去晚一點,排隊都要排好久,沒聽說的店,又怕味道不好。 那麼如何選擇火鍋店呢?最簡單的肯定是在美團。大眾點評上找一找啊。所以,本文就從大眾點評上爬取了成都的火鍋資料,來進行了分析。   &nbs

使用jsoup玩Android網站導航資料

知識點 - 使用jsoup爬取玩Android網站中的導航資料 - 輸出md格式的表格 /** * Created by monty on 2018/3/9. */ public class WanAndroid {

Java爬蟲--利用HttpClient和Jsoup部落格資料並存入資料庫

  由於今日頭條等頭條類產品的出現,以今日頭條為代表所使用的爬蟲技術正在逐漸火熱,在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來,同時因為Python良好的資料分析和機器學習的能力,Python的應用越來越廣泛。不過,今天我們要提到

jsoup的內容

網站顯示內容基本上都是通過分頁來顯示,我們用jsoup簡單爬取頁面僅能獲取本頁的內容,對於其他頁面的內容該如何爬取?其實很簡單,就是通過檢查下一頁的連結地址,基本上下一頁的超連結地址都是有規律的,基本上都是*****/1或者*****/2等等,所以我們可以按照這個規律,迴圈訪

python qidian某一全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

利用python龍虎榜數據及後續分析

登錄 one 可能 股市 .com 爬蟲 但我 由於 相關 ##之前已經有很多人寫過相關內容,但我之前並未閱讀過,這個爬蟲也是按照自己的思路寫的,可能比較醜陋,請見諒! 本人作為Python爬蟲新手和股市韭菜,由於時間原因每晚沒辦法一個個翻龍虎榜數據,所以希望借助爬蟲篩選出

java百度首源代碼

clas read 意思 出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的,寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點,後期會加深的。 1 package test; 2 3 import java.io.B

Python爬蟲之利用BeautifulSoup豆瓣小說(三)——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

校園新聞列表

list 網頁 for 一個 get orm re.search 來源 desc 獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數,並包裝成一個函數。 獲取一個新聞列表頁的所有新聞的上述詳情,並包裝成一個函數。 獲取所有新聞列表頁的網址,調用上述函數。 完成所有校

所有新聞列表

點擊 amp rst label for beautiful enc 次數 bsp 1、獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數,並包裝成一個函數。 import requests from bs4 import BeautifulSoup import

利用python點小圖片,滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

手機評論

meta pen 天貓 lang ret ntp cat last eat import re import json import time import requests from bs4 import BeautifulSoup tm_headers =

利用python糗事百科的用戶及段子

我們 什麽 roo urlopen gen 文件 addheader find 正則匹配 最近正在學習python爬蟲,爬蟲可以做很多有趣的事,本文利用python爬蟲來爬取糗事百科的用戶以及段子,我們需要利用python獲取糗事百科一個頁面的用戶以及段子,就需要匹配兩次,

利用 Scrapy 知乎用戶信息

oauth fault urn family add token post mod lock   思路:通過獲取知乎某個大V的關註列表和被關註列表,查看該大V和其關註用戶和被關註用戶的詳細信息,然後通過層層遞歸調用,實現獲取關註用戶和被關註用戶的關註列表和被關註列表,最終實