python-爬蟲：獲取163郵箱的收件箱資訊列表

阿新 • • 發佈：2019-02-16

在練習python爬蟲的時候看到了原博主的關於爬取163郵箱收件箱資訊列表的文章，就拿來練手了。這裡附上原部落格連結https://blog.csdn.net/u011379247/article/details/51019379

由於原文用的是python2.X，瀏覽器的版本也比較早。而本人用的是python3.6，瀏覽器也是新版本，所以還是有些不一樣的地方值得摸索的。

主要內容：

1. 模擬163郵箱的登陸

2. 獲取登陸後的收件箱頁面

3. 獲取頁面中的郵件資訊

思路：

1. 用瀏覽器登陸郵箱以獲取請求登陸的url以及收件箱網頁的url

2. 向該url傳送登陸請求，獲得response，並利cookie快取登陸的資訊及狀態

3. 提取response中的sid碼，這是下一步請求所需要的

4. 利用sid碼和cookie重新請求，獲得響應，重定向至收件箱網頁，獲取頁面資訊

5. 提取郵件資訊

前期準備：

首先，進入163郵箱登陸頁面：https://mail.163.com/ 我用的是chrome，在這個頁面中右鍵-檢查-network，就可以看到如下介面，要注意的是，這裡要勾上preserve log選項，這樣能保證頁面在切換的時候，之前的日誌不會被清除掉。

接下來，輸入使用者名稱和密碼並點選登陸（此時滑鼠的箭頭應該變成了圓點），登陸後就會出現如下介面

單擊ntesdoor日誌，這個這就是登入時提交的引數資訊，右邊會出現請求的詳細資訊

可以看到Request URL，這個URL與現在瀏覽器中的地址不同，因為這是我們請求登陸的頁面，我們要將使用者名稱密碼等引數資訊一起傳送給這個頁面才能登陸得到現在我們瀏覽器中的頁面。

這裡不知道是版本的問題還是什麼，Request URL和原部落格不一樣，後面少了一串引數，這串引數在下面的From Data中可以找到大部分

還有一個引數funcid=loginone需要手動加入，然後按照一定格式和順序新增到Request URL（即https://mail.163.com/entry/cgi/ntesdoor?）後面。補充完整的Request URL即為：

https://mail.163.com/entry/cgi/ntesdoor?style=-1&df=mail163_letter&net=&language=-1&from=web&race=&iframe=1&product=mail163&funcid=loginone&passtype=1&allssl=true&url2=https://mail.163.com/errorpage/error163.htm

後面測試的時候發現其實用原部落格的Request URL也行，其實就是一個申請登陸的URL，都是通用的。

關鍵不同的地方在於sid碼。這個時候我們可以發現瀏覽器的位址列有一串sid：

https://mail.163.com/js6/main.jsp?sid=RCpjHzssdhVZZaJhQVssftGmNRcBfOlZ&df=mail163_letter

這個sid碼是進入收件箱的關鍵，而每次登陸後的sid碼是不同的，因此我們需要得到它。

如何得到sid碼呢？

我們先回到ntesdoor日誌中，進入response選項，裡面是我們瀏覽器現在的URL，其中就有我們需要的sid碼，因此我們需要得到response的內容並將sid碼提取出來。

得到sid碼之後呢，如何進入收件箱呢？

接下來在瀏覽器中點選收件箱，選擇最後一個出現的日誌，右邊會出現Request URL。如下圖

這就是收件箱的URL了，事實上，我們只需要前面一部分就夠了，因為後面的sid會被我們提取的sid替換掉，從而進入我們自己的收件箱。

sid就像是一個驗證碼，只有在登入成功的URL中得到sid碼，才能得到相應的收件箱的URL並利用cookie中快取的資訊進入相應的收件箱，這是一一對應的。

點選response可以看到伺服器迴應的就是我們收件箱中的郵件資訊了。

接下來獲取response中的資訊並提取需要的出來即可。

下面附上完整程式碼

# -*- coding:utf-8 -*-
import urllib.request
import re
import http.cookiejar
import urllib.parse

#163郵箱類
class MAIL:

    #初始化
def __init__(self):
        #獲取登入請求的網址，這個是通用的，只是一個請求登陸的URL
self.loginUrl = "https://mail.163.com/entry/cgi/ntesdoor?style=-1&df=mail163_letter&net=&language=-1&from=web&race=&iframe=1&product=mail163&funcid=loginone&passtype=1&allssl=true&url2=https://mail.163.com/errorpage/error163.htm"
#設定代理，以防止本地IP被封
self.proxyUrl = "http://202.106.16.36:3128"
#初始化sid碼
self.sid = ""
#第一次登陸所需要的請求頭request headers,這些資訊可以在ntesdoor日誌request header中找到，copy過來就行
self.loginHeaders = {
            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,,image/webp,image/apng,*/*;q=0.8",
'Accept-Language': "zh-CN,zh;q=0.9",
'Connection': "keep-alive",
'Host': "mail.163.com",
'Referer': "http://mail.163.com/",
'User-Agent':"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36"
}
        #設定使用者名稱和密碼，填上自己的即可
self.username = '****'
self.pwd = '****'
#post所包含的引數
self.post = {
            'savelogin':"0",
'url2':"http://mail.163.com/errorpage/error163.htm",
'username':self.username,
'password':self.pwd
        }
        #對post編碼轉換
self.postData = urllib.parse.urlencode(self.post).encode('utf8')
        # 使用http.cookiejar.CookieJar()建立CookieJar物件
self.cjar = http.cookiejar.CookieJar()
        # 使用HTTPCookieProcessor建立cookie處理器，並以其為引數構建opener物件
self.cookie = urllib.request.HTTPCookieProcessor(self.cjar)
        self.opener = urllib.request.build_opener(self.cookie)
        # 將opener安裝為全域性
urllib.request.install_opener(self.opener)


    #模擬登陸並獲取sid碼
def loginPage(self):
        try:
            #發出一個請求
self.request = urllib.request.Request(self.loginUrl,self.postData,self.loginHeaders)
        except urllib.error.HTTPError as e:
            print(e.code)
            print(e.read().decode("utf8"))
        #得到響應
self.response = urllib.request.urlopen(self.request)
        #需要將響應中的內容用read讀取出來獲得網頁程式碼，網頁編碼為utf-8
self.content = self.response.read().decode("utf8")
        #列印獲得的網頁程式碼
print (self.content)
        # 設定提取sid碼的正則表示式
self.sidpattern = re.compile('sid=(.*?)&', re.S)
        self.result = re.search(self.sidpattern, self.content)
        self.sid = self.result.group(1)
        print (self.sid)

    #通過sid碼獲得郵箱收件箱資訊
def messageList(self):
        #重定向至收件箱的網址
listUrl =  'http://mail.163.com/js6/s?sid=%s&func=mbox:listMessages&TopTabReaderShow=1&TopTabLofterShow=1&welcome_welcomemodule_mailrecom_click=1&LeftNavfolder1Click=1&mbox_folder_enter=1'%self.sid
        #新的請求頭
Headers = {
            'Accept': "text/javascript",
'Accept-Language': "zh-CN,zh;q=0.9",
'Connection': "keep-alive",
'Host': "mail.163.com",
'Referer': "https://mail.163.com/js6/main.jsp?sid=%suCFJZNnnRnInrsigqunnSrQXsvMMqctH&df=mail163_letter"%self.sid,
'User-Agent':"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Mobile Safari/537.36"
}
        #發出請求並獲得響應
request = urllib.request.Request(listUrl, headers = Headers)
        response = self.opener.open(request)
        #提取響應的頁面內容，裡面是收件箱的資訊
content = response.read().decode('utf-8')
        print('~~~')
        return content


    #獲取郵件資訊
def getmail(self):
        messages = self.messageList()
        pattern = re.compile('from..(.*?),.*?to..(.*?),.*?subject..(.*?),.*?sentDate..(.*?),\n.*?receivedDate..(.*?),\n',re.S)
        mails = re.findall(pattern, messages)
        for mail in mails:
            print ('-'*50)
            print ('發件人:',mail[0],'主題:',mail[2],'傳送時間:',mail[3])
            print ('收件人:',mail[1],u'接收時間:',mail[4])


#建立163郵箱爬蟲類
mail = MAIL()
mail.loginPage()
mail.getmail()

結果示例如下

<html><head><script type="text/javascript">top.location.href = "https://mail.163.com/js6/main.jsp sid=uCdhYCnnWtdrrsnxQunnjfXFEUTXINIr&df=mail163_letter";</script></head><body></body></html>

DDFjCVXXymmTTYJmFBXXhefaBzIgzveg
~~~
--------------------------------------------------
發件人: '"網易郵件中心" <[email protected]>' 主題: '網易郵箱提醒：登入網易郵箱失敗' 傳送時間: new Date(2017,9,10,11,33,11)
收件人: '"[email protected]" <[email protected]>' 接收時間: new Date(2017,9,10,11,33,11)

python-爬蟲：獲取163郵箱的收件箱資訊列表

python-爬蟲：獲取163郵箱的收件箱資訊列表

python爬蟲：獲取標籤內部全部文字

Python+Selenium自動化測試筆記：登入163郵箱

Python爬蟲：lxml模組分析並獲取網頁內容

Python爬蟲：學爬蟲前得了解的事兒

python爬蟲：爬取網站視頻

Python爬蟲：新浪新聞詳情頁的數據抓取（函數版）

Python爬蟲：HTTP協議、Requests庫

python爬蟲--自動獲取seebug的poc

python爬蟲爬取海量病毒文件

Python 爬蟲：把廖雪峰教程轉換成 PDF 電子書

通過python腳本獲取服務器硬件信息

Python爬蟲：認識urllib/urllib2以及requests

Python爬蟲：現學現用Xpath爬取豆瓣音樂

python 爬蟲：HTTP ERROR 406

Python爬蟲：Xpath語法筆記

Python爬蟲：抓取手機APP的數據

python Class：獲取對象類型

JavaMail讀取收件箱退信郵件/分析郵件附件獲取Message_Id

我的第一個python爬蟲：爬取豆瓣top250前100部電影

python-爬蟲：獲取163郵箱的收件箱資訊列表

相關推薦