1. 程式人生 > >網路爬蟲-模擬手機瀏覽器抓取資料

網路爬蟲-模擬手機瀏覽器抓取資料

有些網站的資料在PC端很複雜,引數加密很嚴重,但是移動APP端的就沒那麼多加密,所以在遇到有些瓶頸的情況下,可以考慮從網頁端轉到移動端去抓包,爬取資料。這裡有兩種方法:

一. 使用模擬器下載APP

如果該網站有APP的話,推薦使用逍遙安卓模擬器,可以設定代理,使用fiddler進行抓包。

二.使用谷歌瀏覽器偽裝安卓/蘋果使用者

這種方式就比較簡單方便,直接修改chrome瀏覽器的user-agent為指定的機型即可。

這裡主要介紹一下第二種方法。

這裡寫圖片描述

這裡寫圖片描述

可以看出移動端的介面比PC端的簡潔很多,抓包的時候也方便許多,可以過濾掉很多雜亂無章的js或者其他載入的資料。

如何設定修改chrome瀏覽器的user-agent

1.下載好最新版本的谷歌瀏覽器(我這裡的版本是v63)
2.將Google Chrome複製貼上一份,一個用來做正常PC端瀏覽器,一個用來模擬手機瀏覽器
3.右鍵單擊複製後的Google Chrome瀏覽器,選擇屬性
4.在Google Chrome的目標後新增以下程式碼(以我桌面的瀏覽器為例 注意–user前面有一個空格)

安卓

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --user-agent="Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"

蘋果

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --user-agent="Mozilla/5.0 (iPad; U; CPU OS 3_2_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B500 Safari/531.21.10"

5.給該瀏覽器重新命名為安卓/蘋果瀏覽器(這一步可以忽略,主要是用來區分普通瀏覽器和偽裝瀏覽器)

接下來開啟瀏覽器 可以發現已經變成安卓/蘋果瀏覽器介面了,有些網站沒有設定自適應螢幕,所以自行開啟開發者工具除錯一下解析度就OK了。

PS
這裡我還得吐槽一下樂桃航空,下訂單的時候必須支付完成之後才有訂單,說有支付寶方式支付但是找了半天,PC端和移動端都是沒有的!這讓我抓完包之後進行測試的時候如何是好~ 畢竟不敢真的將自己的信用卡號填上去

相關推薦

網路爬蟲-模擬手機瀏覽器資料

有些網站的資料在PC端很複雜,引數加密很嚴重,但是移動APP端的就沒那麼多加密,所以在遇到有些瓶頸的情況下,可以考慮從網頁端轉到移動端去抓包,爬取資料。這裡有兩種方法: 一. 使用模擬器下載APP 如果該網站有APP的話,推薦使用逍遙安卓模擬器,可以設定

網路爬蟲】使用HttpClient4.3.5資料

使用jar——Apache client 程式碼結構: 具體程式碼: 抓取結果封裝 /** * 抓取結果的封裝 * @author tsj-pc * */ public class CrawlResultPojo { pri

使用PHP curl模擬瀏覽器網站信息

打開 user 開始 密碼認證 tran use 方式 網站 body curl是一個利用URL語法在命令行方式下工作的文件傳輸工具。curl是一個利用URL語法在命令行方式下工作的文件傳輸工具。它支持很多協議:FTP, FTPS, HTTP, HTTPS, GOPHER,

使用Selenium模擬瀏覽器淘寶商品美食信息

get cto sub element 得到 support pan args time 1.搜索關鍵詞:利用Selenium驅動瀏覽器,得到商品列表。 2.分析頁碼並翻頁:得到商品頁碼數,模擬翻頁,得到後續頁面的商品列表。 3.分析提取商品內容:利用PyQuery分析源碼

Python爬蟲之使用正則表示式資料

目錄 匹配標籤 匹配title標籤 a標籤 table標籤 匹配標籤裡面的屬性 匹配a標籤裡面的URL 匹配img標籤裡的 src 相關文章:Linux中的正則表示式             &nbs

爬蟲的增量式資料更新

爬蟲的增量式抓取和資料更新 頁面爬的多了,量上去了之後,就會遇到其他的問題,其實不管做什麼技術量大了都會有問題。一般情況下,我認為解決"大量"問題的思路有兩個:一種是著力於優化系統的能力,讓原本只能一分鐘處理100條的系統提升到一分鐘1000條之類的,在我看來並行、分散式、叢

python3 使用selenium模擬登陸天眼查資料

  由於之前用Scrapy 抓了一些公司的名稱,但是沒有準確的聯絡方式,所以就自己就學習了一下使用selenium自動化工具,速度比較慢,網上也有很多這方面的程式碼,但是大部分的網頁解析部分都出錯了,可能是這種網站定時會更改一下網頁的固定幾個標籤。   網上也有很多說如果遇到一些防爬蟲特別強的網站,比如企查

16-使用Selenium模擬瀏覽器淘寶商品美食資訊

淘寶由於含有很多請求引數和加密引數,如果直接分析ajax會非常繁瑣,selenium自動化測試工具可以驅動瀏覽器自動完成一些操作,如模擬點選、輸入、下拉等,這樣我們只需要關心操作而不需要關心後臺發生了怎樣的請求。PhantomJS是一個無介面的瀏覽器。 爬取淘寶搜尋關鍵詞下的寶貝內容,爬取到MONGODB,

python 爬蟲:利用seleniumcookie進行模擬登陸

說明: selenium抓取cookie模擬登陸,理論上可以登入任何網站。以下兩段程式碼分別介紹抓取cookie,和攜帶cookie登入。 抓取cookie.json程式碼 import

Python爬蟲練習之一:美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山(大悅城店)', 'avgScore': 4.9, 'all

利用“爬蟲視訊 法院審結全國首例計算機資料

近期,海淀法院審結了一起利用“爬蟲”技術侵入計算機資訊系統抓取資料的刑事案件。該案是全國首例利用“爬蟲”技術非法入侵其他公司伺服器抓取資料,進而實施複製被害單位視訊資源的案件。 法院經審理查明,被告單位上海某網路科技有限公司,經營計算機網路科技領域內的技術開發、技術服務、電子商務、電子產品等業務。被告人張某

python爬蟲"Hello World"級入門例項(二),使用json從中國天氣網資料

一、二話不說先上程式碼 python2.7版 #!/usr/bin/python2.7 #-*- coding=UTF-8 -*- import urllib import json def get_dic(url): page = urll

python 爬蟲(四)Ajax資料

import urllib.request import ssl import json def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi

htmlunit做爬蟲繞過驗證碼網站資料

htmlunit 是一款開源的java 頁面分析工具,讀取頁面後,可以有效的使用htmlunit分析頁面上的內容。專案可以模擬瀏覽器執行,被譽為java瀏覽器的開源實現。這個沒有介面的瀏覽器,執行速度也是非常迅速的。 利用htmlunit 抓取網站是非常方便的,抓取一個ht

Python爬蟲入門教程 17-100 部落格資料

寫在前面 寫了一段時間的部落格了,忽然間忘記了,其實部落格頻道的部落格也是可以抓取的,所以我幹了..... 其實這事情挺簡單的,開啟CSDN部落格首頁,他不是有個最新文章麼,這個裡面都是最新發布的文章。 開啟F12抓取一下資料API,很容易就獲取到了他的介面 提取連結長

wireshark網路資料包分析

第一次總結的文件不知到被我放到哪裡去了,找了很久沒有總結出來,於是只能再總結一次,之前也是一直在學習協議。資料包的分析對於瞭解網路,尤其是理解協議來說很重要。我只是分析了TCP/IP協議族的部分常見協議,自己記上一筆,防止放在電腦上又被我給弄沒了。。。 IP資料報格式

java爬蟲資料,儲存為excel檔案

下載jsoup jar包和poi jar包 City.java package dataToExcel; public class City { private String name; private String url;

python爬蟲使用BeautifulSoup庫簡單快速資料

如何快速入門抓取html網頁資料開發準備:1:開發工具使用pycharm,下載點選開啟連結2 : python3.6 下載點選開啟連結配置過程百度,不做細緻分析,配置完成後進入開發,pycharm破解選擇License server啟用即可,idea.qmanga.com可用

使用Selenium模擬瀏覽器

最近在學習python爬蟲的一些知識,在練習demo的過程中,碰到了一些問題,現已經解決,希望能給學習的朋友一點幫助。 安裝 python版本建議使用python3.6版本 python下載地址 https://www.python.org/

linux下使用crontab設定scrapy爬蟲定時資料

1. crontab設定定時執行程式 在我們的專案中,需要從入口網站上抓取新聞資料。由於網上的新聞資料更新的速率並不是太快,所以只需要設定每天執行一遍資料抓取即可。這樣也可以利用新聞上面的時間便籤,每次只抓取當天釋出的新聞,這樣就不會出現重複了。 首先我們已