1. 程式人生 > >Python爬蟲之瀏覽器User-Agent大全

Python爬蟲之瀏覽器User-Agent大全

一、基礎知識篇:

Http Header之User-Agent

    User Agent中文名為使用者代理,是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。它是一個特殊字串頭,是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器核心、等資訊的標識。通過這個標 識,使用者所訪問的網站可以顯示不同的排版從而為使用者提供更好的體驗或者進行資訊統計;例如用手機訪問谷歌和電腦訪問是不一樣的,這些是谷歌根據訪問者的 UA來判斷的。UA可以進行偽裝。

    瀏覽器的UA字串的標準格式:瀏覽器標識 (作業系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識版本資訊。但各個瀏覽器有所不同。

字串說明:

1、瀏覽器標識

出於相容及推廣等目的,很多瀏覽器的標識相同,因此瀏覽器標識並不能說明瀏覽器的真實版本,真實版本資訊在 UA 字串尾部可以找到。

2、作業系統標識


3、加密等級標識

N:表示無安全加密

I: 表示弱安全加密

U: 表示強安全加密

4、瀏覽器語言

在首選項 > 常規 > 語言中指定的語言

5、渲染引擎

顯示瀏覽器使用的主流渲染引擎有:Gecko、WebKit、KHTML、Presto、Trident、Tasman等,格式為:渲染引擎/版本資訊

6、版本資訊

顯示瀏覽器的真實版本資訊,格式為:瀏覽器/版本資訊

瀏覽器User-Agent的詳細資訊

PC端:

safari 5.1 – MAC

User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 

safari 5.1 – Windows

User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

IE 9.0

User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;

IE 8.0

User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)

IE 7.0

User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)

IE 6.0

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Firefox 4.0.1 – MAC

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows

User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Opera 11.11 – MAC

User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11

Opera 11.11 – Windows

User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11

Chrome 17.0 – MAC

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

傲遊(Maxthon)

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)

騰訊TT

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)

世界之窗(The World) 2.x

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

世界之窗(The World) 3.x

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)

搜狗瀏覽器 1.x

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)

360瀏覽器

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)

Avant

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)

Green Browser

User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

移動裝置端:

safari iOS 4.33 – iPhone

User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari iOS 4.33 – iPod Touch

User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari iOS 4.33 – iPad

User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

Android N1

User-Agent: Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android QQ瀏覽器 For android

User-Agent: MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android Opera Mobile

User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10

Android Pad Moto Xoom

User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13

BlackBerry

User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+

WebOS HP Touchpad

User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0

Nokia N97

User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124

Windows Phone Mango

User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)

UC無

User-Agent: UCWEB7.0.2.37/28/999

UC標準

User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999

UCOpenwave

User-Agent: Openwave/ UCWEB7.0.2.37/28/999

UC Opera

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999

二、瀏覽器識別

1、IE瀏覽器(以IE 9.0 為例)

PC端:User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;

移動裝置:User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)

由於遨遊、世界之窗、360瀏覽器、騰訊瀏覽器以及搜狗瀏覽器、Avant、Green Browser均採用IE的核心,因此IE瀏覽器判斷的標準是”MSIE“欄位,MSIE欄位後面的數字為版本號,但同時還需要判斷不包 含”Maxthon“、”The world“、”360SE“、”TencentTraveler“、”SE“、”Avant“等欄位(Green Browser沒有明顯標識)。移動裝置還需要判斷IEMobile+版本號。

2、360瀏覽器

PC端:User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; 360SE)

移動裝置:暫無

360瀏覽器的判斷標準是”360SE”欄位,沒有版本表示。

3、搜狗瀏覽器

PC端:User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)

移動裝置:暫無

搜狗瀏覽器的判斷標準是”SE“、”MetaSr“欄位,版本號為SE後面的數字。 

4、Chrome

PC端:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

移動裝置:User-Agent: Mozilla/5.0 (Linux; U; Android 2.2.1; zh-cn; HTC_Wildfire_A3333 Build/FRG83D) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

PC端chrome瀏覽器的判斷標準是chrome欄位,chrome後面的數字為版本號;移動端的chrome瀏覽器判斷”android“、”linux“、”mobile safari“等欄位,version後面的數字為版本號。

5、Safari

PC端:User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

移動裝置:User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

由於Chrome及Nokia’s Series 60 browser也使用WebKit核心,因此Safari瀏覽器的判斷必須是:包含safari欄位,同時不包含chrome等資訊,確定 後”version/“後面的數字即為版本號。在以上條件下包含Mobile欄位的即為移動裝置上的Safari瀏覽器。

6、騰訊瀏覽器

 PC端:User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; TencentTraveler 4.0; .NET CLR 2.0.50727)

 移動裝置:User-Agent: MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

 騰訊瀏覽器的判斷標準是”TencentTraveler“或者”QQBrowser“,TencentTraveler或QQBrowser後面的數字為版本號。

 7、Firefox

 PC端:User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

 移動裝置:User-Agent: Mozilla/5.0 (Androdi; Linux armv7l; rv:5.0) Gecko/ Firefox/5.0 fennec/5.0

 Firefox的判斷標準是Firefox欄位,firefox後面的數字為版本號。

 8、The world

 PC端:User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)

 移動裝置:暫無

 Theworld瀏覽器的判斷標準是”The world“欄位,沒有標示版本號。

 需要注意的是:The world 2.x版本的User-Agent中沒有”The world“的欄位。

 9、遨遊

 PC端:User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)

 移動裝置:暫無

 遨遊瀏覽器的判斷標準是”Maxthon“,Maxthon後面的數字為版本號。

 10、Opera

 PC端:User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11

 移動裝置:User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera mobi/adr-1107051709; U; zh-cn) Presto/2.8.149 Version/11.10

 opera瀏覽器的判斷標準是opera欄位,opera欄位後面的數字為版本號。

 11、UC瀏覽器

 UC Web有多種模式瀏覽方式,對應的User-Agent為:

 UC無

User-Agent: UCWEB7.0.2.37/28/999

 UC標準

User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999

 UCOpenwave

User-Agent: Openwave/ UCWEB7.0.2.37/28/999

 UC Opera

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999

 UC瀏覽器的判斷標準是”UCWEB“欄位,UCWEB後面的數字為版本號。

 作業系統定向

 作業系統定向依賴於各個瀏覽器在開啟頁面時所傳輸的http header資訊中的User-Agent,關於User-Agent的說明,請參見Http header之User-Agent。

User-Agent的詳細資訊,請參見瀏覽器User-Agent的詳細資訊。

 我們來了解User-Agent中的不同作業系統的識別方法。

 PC端:



 移動裝置端:

相關推薦

Python爬蟲瀏覽器User-Agent大全

一、基礎知識篇:Http Header之User-Agent    User Agent中文名為使用者代理,是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。它是一個特殊字串頭,是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器

瀏覽器 User-Agent 大全

一、基礎知識Http Header之User-AgentUser Agent中文名為使用者代理,是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。它是一個特殊字串頭,是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器核心、等資訊的標識。通過這個標識,使用者所訪問

時下流行的瀏覽器User-Agent大全

  一、基礎知識篇: HttpHeader之User-Agent UserAgent中文名為使用者代理,是Http協議中的一部分,屬於頭域的組成部分,UserAgent也簡稱UA。它是一個特殊字串頭,是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器核心、等資訊的標

動態ip代理:反網路爬蟲設定User-Agent的常規方法

動態ip代理:反網路爬蟲之設定User-Agent的常規方法 爬蟲過程中的反爬措施非常重要,其中設定隨機 User-Agent 是一項重要的反爬措施。常規情況,比較方便的方法是利用 fake_useragent包,這個包內建大量的 UA 可以隨機替換,這比自己去搜集羅列要方便很多,下面來看一下如何操作。

整理時下流行的瀏覽器User-Agent大全

 一、基礎知識篇: Http Header之User-Agent     User Agent中文名為使用者代理,是Http協議中的一部分,屬於頭域的組成部分,User Agent也簡稱UA。它是一個特殊字串頭,是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及

python爬蟲爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性) 目錄 隨機User-Agent 獲取代理ip 檢測代理ip可用性            隨機User-Agent fake_useragent庫,偽

python爬蟲Scrapy框架:兩種隨機選擇User-Agent的方法

修改請求時的User-Agent一般有兩種思路:一是修改setting中的User-Agent變數(適用於極少量的agent更換,一般不採用);另一種就是通過Downloader Middleware的process_request()方法來修改,即在middlewares.

python爬蟲scrapy中user agent淺談(兩種方法)

user agent簡述 User Agent中文名為使用者代理,簡稱 UA,它是一個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本、CPU 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛等。 開始(測試不同型別user agent返回值) 手機use

User-Agent大全,可直接複製到python程式碼裡

 這裡面有超過50個 user-agent ,包含PC和移動端, 並且可以直接複製貼上到python程式碼裡. 此方法,是隨機其中一個user-agent: # -*-coding:utf-8 -*- import random # 返回一個隨機的請求頭 h

Python爬蟲谷歌瀏覽器無介面啟動

from selenium import webdriver import os url = 'http://jandan.net/ooxx' chrome_options = webdriver.

一個鹹魚的Python爬蟲路(三):爬取網頁圖片

you os.path odin 路徑 生成 存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波,爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

設置兩個div是總是不能重合瀏覽器user agent stylesheet問題

F12 css log .cn com -1 -s img agent 如圖 兩個div之間總是有一個空行,設置了margin為0還是沒卵用,f12調試發現 多了一個user agent stylesheet樣式,經百度是瀏覽器自帶的樣式 重新為div內的元素ul設置cs

[Python爬蟲] 十五:Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程 標題 操作 函數 軟件測試 init   借助搜索微信搜索引擎進行抓取   抓取過程   1、首先在搜狗的微信搜索頁面測試一下,這樣能夠讓我們的思路更加清晰        在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

Chrome改動瀏覽器User Agent

mozilla trac 右鍵 gen art user bsp n) .exe 對瀏覽器快捷方式右鍵->改動目標項為 C:\Users\LJ\AppData\Local\Google\Chrome\Application\chrome.exe --user-ag

玩轉python爬蟲URLError異常處理

bsp 無法識別 pac 使用 cin lai 網絡 處理方式 地址 這篇文章主要介紹了python爬蟲的URLError異常處理,詳細探尋一下URL\HTTP異常處理的相關內容,通過一些具體的實例來分析一下,非常的簡單,但是卻很實用,感興趣的小夥伴們可以參考一下 本節

python爬蟲正則表達式

ner cde 輸入 set 神奇 tro 轉義 規則 error 一、簡介   正則表達式,又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。

[Python爬蟲] 十九:Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用   一、介紹     本例子用Selenium +phantomjs爬取超級TV(http://www.chaojitv.com/news/index.html)的資訊信息,輸入給定關鍵字抓取

Python爬蟲爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲(未使用框架,僅供娛樂)獲取並下載煎蛋網妹子圖指定頁面或全部圖片,並將圖片下載到磁盤。 首先導入模塊:urllib.request、re、os import

python爬蟲git的使用

mage .cn 沒有 倉庫 本地倉庫 odin src python爬蟲 建立 1、初始化文件夾為版本控制文件夾,首先建立一個文件夾,進入這個文件夾以後輸入git init初始化這個文件夾。 2、Git幾種位置概念 1、本地代碼:本地更改完代碼以後,雖然是存放在git的

python爬蟲git的使用(coding.net的使用)

git push github上 版本 es2017 push 我們 執行命令 pytho 最好的 1、註冊coding.net賬號,然後登陸。 2、創建項目 套路和github都一樣。 1.1、我們在遠程倉庫上創建了一個倉庫,這樣的話,我們需要在本地隨便建立一