利用Jsoup爬取天貓列表頁資料

阿新 • • 發佈：2019-01-15

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁.

本文針對的是店內搜尋頁

以下是獲取網頁資料:

/**
	 * @param URL 根據URL獲取document 
	 */
	public static Document getDocument(String URL) {
		Connection conn = null;
		Document doc = null;
		int count = 0;
		while (doc == null && count < 3000) {
			try {
				conn = Jsoup.connect(URL);
				doc = conn.get();
			} catch (IOException e) {
				e.printStackTrace();
			}
			count++;
		}
		return doc;
	}

解析網頁中的節點,獲取資料

/**
	 * @param prdListUrl
	 *            ：產品所在 列表頁
	 * @param dataId
	 *            ：產品的資料ID
	 * @throws Exception 
	 */
	public static Map<String,String> getProductInfo(String prdListUrl,String dataId) throws Exception{
		Map<String,String> productInfo = new HashMap<String,String>();
		Document doc = GetTmall.getDocument(prdListUrl);
		Elements div_J_TItems = doc.select(".J_TItems");
		if(div_J_TItems!=null && !div_J_TItems.isEmpty()){
			Elements item5line1s = div_J_TItems.get(0).children(); 
			for(Element item5line1 : item5line1s ){
				Elements items = item5line1.select(".item ");
				if(items != null && !items.isEmpty()){
					for(Element item : items){
						String prdId = item.attr("data-id");
						if(prdId.equals(dataId)){
							Elements c_prices = item.select(".detail .attribute .cprice-area .c-price");
							productInfo.put("price", c_prices.get(0).text());
							Elements sale_nums = item.select(".detail .attribute .sale-area .sale-num");
							productInfo.put("saleNum", sale_nums.get(0).text());
						}
					}
				}
			}
		}
		//System.out.println("商品網址："+prdListUrl+"  商品編號 ："+dataId);
		//System.out.println("銷售量："+productInfo.get("saleNum")+"銷售價："+productInfo.get("price"));
		return productInfo;
	}

利用Jsoup爬取天貓列表頁資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁以下是獲取網頁資料: /** * @param URL 根據URL獲取document

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

如何爬取天貓評論資料

（本文原作於2016年3月5日，有刪改）一、原理首先在瀏覽器位址列中輸入https://www.tmall.com/開啟天貓商城，任意檢索某一商品，以奶粉為例，搜尋結果如下圖所示：任意點開其中的某個商品：這是我們常見的網頁，由文字、圖

爬取天貓國際、京東全球購、淘寶全球購的商品資料

公司內部mini專案–智慧選品 “智慧選品”專案主要是方便採購人員瞭解其他競品平臺的商品資料，將其他平臺上賣的特別好的商品資料展示給採購人員，方便他們去採購商品，擴大公司自己的商品，所以就需要爬取其他平臺的資料，本著需求出發，這裡主要爬取天貓國際、京東全球購、

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

selenium跳過webdriver檢測並爬取天貓商品數據

-a src 速度 tor lee lac chrome瀏覽器自動 oca 目錄簡介編寫思路使用教程演示圖片源代碼

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

使用jsoup爬取玩Android網站導航資料

知識點 - 使用jsoup爬取玩Android網站中的導航資料 - 輸出md格式的表格 /** * Created by monty on 2018/3/9. */ public class WanAndroid {

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

jsoup爬取分頁的內容

網站顯示內容基本上都是通過分頁來顯示，我們用jsoup簡單爬取頁面僅能獲取本頁的內容，對於其他頁面的內容該如何爬取？其實很簡單，就是通過檢查下一頁的連結地址，基本上下一頁的超連結地址都是有規律的，基本上都是*****/1或者*****/2等等，所以我們可以按照這個規律，迴圈訪

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

爬取校園新聞列表

list 網頁 for 一個 get orm re.search 來源 desc 獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。獲取一個新聞列表頁的所有新聞的上述詳情，並包裝成一個函數。獲取所有新聞列表頁的網址，調用上述函數。完成所有校

爬取所有新聞列表

點擊 amp rst label for beautiful enc 次數 bsp 1、獲取單條新聞的#標題#鏈接#時間#來源#內容 #點擊次數，並包裝成一個函數。 import requests from bs4 import BeautifulSoup import

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

抓取天貓手機評論

meta pen 天貓 lang ret ntp cat last eat import re import json import time import requests from bs4 import BeautifulSoup tm_headers =

利用python爬取糗事百科的用戶及段子

我們什麽 roo urlopen gen 文件 addheader find 正則匹配最近正在學習python爬蟲，爬蟲可以做很多有趣的事，本文利用python爬蟲來爬取糗事百科的用戶以及段子，我們需要利用python獲取糗事百科一個頁面的用戶以及段子，就需要匹配兩次，

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

利用Jsoup爬取天貓列表頁資料

相關推薦