Python 爬蟲實戰—盤搜搜

阿新 • • 發佈：2018-05-21

and 一個 ace 共享 urllib ring view 實戰 post

近期公司給了個任務：根據關鍵搜索百度網盤共享文件並下載。

琢磨了幾天寫下了一段簡單的demo代碼，後期優化沒有處理。

主要的思路：（1）根據關鍵字爬取盤搜搜的相關信息

　　　　　　（2）解析並獲取盤搜搜跳轉到百度網盤的URL地址

　　　　　　（3）解析百度網盤獲取真實下載URL然後下載文件

本來下了一段ip代理處理的，可惜免費爬取的IP時效性差基本上用不了，所以下面給出的是沒有ip代理demo

然而沒有ip代理處理的話，下載不到幾個文件ip就被封了。所以下面的代碼僅供學習。

# -*- coding=utf-8 -*-
import random
import time
import requests
 
import os
import re
import urllib
import json
import string
import threading
from lxml import etree
from urllib import request, parse


def get_UserAgent():
    ‘‘‘
        返回一個隨機的請求頭 headers
    ‘‘‘
    USER_AGENTS = [
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727) 
",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US) 
",
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
        "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
        "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
        "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    ]
    UserAgent = random.choice(USER_AGENTS)
    headers = {‘User-Agent‘: UserAgent}
    return headers


def filterType(filename):
    ‘‘‘
    返回文件類型
    ‘‘‘
    filter_type = [‘.zip‘, ‘.pdf‘, ‘.doc‘, ‘.docx‘,
                   ‘.xls‘, ‘.xlsx‘, ‘.png‘, ‘.img‘, ‘.rar‘, ‘.txt‘]
    IsExist = ‘‘
    if filename != ‘‘:
        for item in filter_type:
            if filename.find(item) != -1:
                IsExist = item
                break
    return IsExist


def save_file(downloadUrl, saveFilePath):
    ‘‘‘
    文件下載1
    ‘‘‘
    print(‘文件開始下載並保存...‘)
    try:
        header_dict = get_UserAgent()
        with requests.get(downloadUrl, headers=header_dict, timeout=6, stream=True) as web:
            print(web.status_code)
            # 為保險起見使用二進制寫文件模式，防止編碼錯誤
            with open(saveFilePath, ‘wb‘) as outfile:
                for chunk in web.iter_content(chunk_size=1024):
                    outfile.write(chunk)
        print(‘文件下載完成...‘)
    except Exception as ex:
        print(ex)


def save_file_retrieve(downloadUrl, saveFileName):
    ‘‘‘‘‘
    文件下載2
    ‘‘‘
    local = os.path.join(‘D://downLoad//‘, saveFileName)
    request.urlretrieve(downloadUrl, local, Schedule)


def Schedule(a, b, c):
    ‘‘‘‘‘
    a:已經下載的數據塊
    b:數據塊的大小
    c:遠程文件的大小
   ‘‘‘
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print(‘%.2f%%‘ % per)


def get_file(downloadUrl, saveFilePath):
    ‘‘‘
    文件下載3
    ‘‘‘
    try:
        u = request.urlopen(downloadUrl)
        print(‘文件開始下載並保存...‘)
        block_sz = 8192
        with open(saveFilePath, ‘wb‘) as f:
            while True:
                buffer = u.read(block_sz)
                if buffer:
                    f.write(buffer)
                else:
                    break
        print(‘文件下載完成...‘)
    except urllib.error.HTTPError:
        # 碰到了匹配但不存在的文件時，提示並返回
        print(downloadUrl, "url file not found")
    except IOError:
        print(IOError.message)


def getAll_contentForJs(html, re_str):
    ‘‘‘
          獲取js裏面yunData數據,返回yunData字符串
     html: html代碼
     re_str: 正則表達式
    ‘‘‘
    #res_str = r‘yunData.setData\({(.*?)}\)‘
    my_js = re.findall(re_str, html, re.S | re.M)
    jsData = my_js
    return jsData


def getAll_contentFosXpath(html, myxpath):
    ‘‘‘
          獲取頁面上指定內容
     html: html代碼
     myxpath: xpath語法
    ‘‘‘
    myHtml = etree.HTML(html)
    mydata = myHtml.xpath(myxpath)
    return mydata


def get_postUrl(Jsparams):
    ‘‘‘
            拼接請求百度網盤真實下載地址post的url地址
    ‘‘‘
    urlstr = ‘https://pan.baidu.com/api/sharedownload?‘
    params = json.loads(Jsparams)
    urlstr += ‘sign=‘ + str(params.get(‘sign‘)) + ‘‘
    urlstr += ‘&timestamp=‘ + str(params.get(‘timestamp‘)) + ‘‘
    urlstr += ‘&bdstoken=‘ + str(params.get(‘bdstoken‘)) + ‘‘
    urlstr += ‘&channel=chunlei‘
    urlstr += ‘&clienttype=0‘
    urlstr += ‘&web=1‘
    urlstr += ‘&app_id=250528‘
    return urlstr


def get_postData(Jsparams):
    ‘‘‘
          拼接請求百度網盤真實下載地址post的請求參數
    ‘‘‘
    postdata = {}
    params = json.loads(Jsparams)
    postdata["encrypt"] = 0
    postdata["product"] = "share"
    postdata["uk"] = str(params.get("uk"))
    postdata["primaryid"] = str(params.get("shareid"))
    postdata["fid_list"] = "[" +         str(params[‘file_list‘][‘list‘][0].get(‘fs_id‘)) + "]"
    return postdata


def get_downLoad(Jsparams):
    ‘‘‘
          發送post請求獲取真實下載地址
    ‘‘‘
    print(‘發送post請求獲取真實下載路徑...‘)
    try:
        header_dict = get_UserAgent()
        params = parse.urlencode(get_postData(
            Jsparams)).encode(encoding=‘UTF8‘)
        req = request.Request(url=get_postUrl(Jsparams),
                              data=params, headers=header_dict, method="POST")
        resp = request.urlopen(req)
        resp = resp.read().decode(encoding=‘utf-8‘)
        return resp
    except Exception as ex:
        print(ex)


def get_html(urlLink, headers):
    ‘‘‘
    獲取頁面代碼html,  同IP多次請求會出現超時現象。
    ‘‘‘
    try:
        response = requests.get(
            url=urlLink, headers=headers, timeout=60)
        response.encoding = response.apparent_encoding
        if response.status_code == 200:
            return response.text
    except urllib.request.URLError as e:
        print(‘URLError! The bad Msg is %s‘ % e)
        return None
    except urllib.request.HTTPError as e:
        print(‘HTTPError! The bad Msg is %s‘ % e)
        return None
    except Exception as e:
        print(‘Unknown Errors! The bad Msg is %s ‘ % e)
        return None


def get_redirects(urlLink, headers):
    try:
        response = requests.get(
            url=urlLink, headers=headers, timeout=60, allow_redirects=False)
        return response.headers[‘Location‘]
    except urllib.request.URLError as e:
        print(‘URLError! The bad Msg is %s‘ % e)
        return None
    except urllib.request.HTTPError as e:
        print(‘HTTPError! The bad Msg is %s‘ % e)
        return None
    except Exception as e:
        print(‘Unknown Errors! The bad Msg is %s ‘ % e)
        return None


def baiDuShare(bdUrl):
    try:
        print(‘解析盤搜搜詳情頁‘)
        header_dict = get_UserAgent()
        shareHtml = get_html(bdUrl, header_dict)
        if shareHtml != None:
            ‘‘‘
            解析網站數據獲取百度網盤共享文件URL
            ‘‘‘
            # 共享文件名稱
            share_file = getAll_contentFosXpath(
                shareHtml, ‘//*[@id="con"]/div/div[1]/h1‘)
            fileName = share_file[0].text
            # 共享文件大小
            share_size = getAll_contentForJs(
                shareHtml, ‘<dd>文件大小：(.*?)MB</dd>‘)
            # 百度網盤共享地址
            share_link = getAll_contentForJs(
                shareHtml, ‘a=go&url=(.*?)&t=‘)
            share_url = ‘http://to.pansoso.com/?a=to&url=‘ +                 share_link[0]
            panRedirects = get_redirects(share_url, header_dict)
            if panRedirects != None:
                # 獲取文件對應類型
                print(panRedirects)
                print(fileName)
                FirtHtml = get_html(panRedirects, header_dict)
                share_type = filterType(fileName)
                MyJS = getAll_contentForJs(
                    FirtHtml, r‘yunData.setData\({(.*?)}\)‘)
                StrMyJS = ‘{‘ + MyJS[0] + ‘}‘
                DownLink = json.loads(get_downLoad(StrMyJS))
                print(DownLink[‘list‘][0].get(‘dlink‘))
                save_file(DownLink[‘list‘][0].get(‘dlink‘),
                          ‘D://downLoad//‘ + str(fileName).replace(share_type, ‘‘) + share_type)  # 有些文件後綴不在標題的最後，所以將它替換為空再在最後加上文件後綴
            else:
                print(‘百度共享盤解析失敗‘)
        else:
            print(‘盤搜搜詳情頁失敗‘)
    except Exception as e:
        print(‘Unknown Errors! The bad Msg is %s ‘ % e)
        return None


if __name__ == ‘__main__‘:
    headers = get_UserAgent()  # 定制請求頭
    targeturl = ‘http://www.pansoso.com‘
    headers["Host"] = "www.pansoso.com"
    headers["Accept-Language"] = "zh-CN,zh;q=0.9"
    searchStr = input(‘請輸入關鍵字：‘)
    searchUrl = ‘http://www.pansoso.com/zh/%s‘ % searchStr
    searchUrl = request.quote(searchUrl, safe=string.printable)
    print(‘開始搜索【%s】網盤共享: %s‘ % (searchStr, searchUrl))
    try:
        time.sleep(random.random() * 10)
        panSosoHtml = get_html(searchUrl, headers)
        if panSosoHtml != None:
            panSosoTitle = getAll_contentFosXpath(
                panSosoHtml, ‘//div[@id="content"]/div[@class="pss"]/h2/a‘)
            baiduthreads = []
            for titleItem in panSosoTitle:
                # 篩選出文件類型以及關鍵字匹配的 共享文件
                if filterType(titleItem.text) != ‘‘ and str(titleItem.text).find(searchStr) != -1:
                    print(targeturl + titleItem.attrib[‘href‘])
                    Urlparam = targeturl + titleItem.attrib[‘href‘]
                    t = threading.Thread(
                        target=baiDuShare, args=(Urlparam,))
                    baiduthreads.append(t)
            for s in baiduthreads:  # 開啟多線程爬取
                s.start()
                time.sleep(random.random() * 10)
            for e in baiduthreads:  # 等待所有線程結束
                e.join()
        else:
            print(‘請求失敗‘)
    except Exception as e:
        print(‘Unknown Errors! The bad Msg is %s ‘ % e)

View Code

Python 爬蟲實戰—盤搜搜

and 一個 ace 共享 urllib ring view 實戰 post 近期公司給了個任務：根據關鍵搜索百度網盤共享文件並下載。琢磨了幾天寫下了一段簡單的demo代碼，後期優化沒有處理。主要的思路：（1）根據關鍵字爬取盤搜搜的相關信息　　　　　　（2）解析並獲取

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

Python爬蟲之提取Bing搜索的背景圖片並設置為Windows的電腦桌面

頁面心悅 exe 自動停止 .com req utf 需要 exec ??鑒於現階段國內的搜索引擎還用不上Google, 筆者會尋求Bing搜索來代替。在使用Bing的過程中，筆者發現Bing的背景圖片真乃良心之作，十分賞心悅目，因此，筆者的腦海中萌生了一個念頭：能否自己

Python爬蟲(5) 借助搜狗搜索爬取微信文章

public 文章內容 bsp get python爬蟲 header 正則表達式 exce 3.0 借助搜狗搜索爬取微信文章 from urllib import request as r import re as e from urllib

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

路飛學院-Python爬蟲實戰密訓班-第1章

bsp enc fin 以及 sign 模塊 nco comm soc 學習筆記：通過本章的學習，學習到了requests和BeautifulSoup模塊的安裝及使用方法。以及爬取給類網站的方法和知識點。 1、requests和Be

路飛學城-Python爬蟲實戰密訓-第1章

hidden 正則 lec color cookie pass __name__ 課程 type 正式的開始學習爬蟲知識，Python是一門接觸就會愛上的語言。路飛的課真的很棒，課程講解不是告訴你結論，而是在告訴你思考的方法和過程。第一章，學習了如何爬取汽車之家以及抽屜登

路飛學城—python爬蟲實戰密訓-—第1章

param 新聞之前 code col 程序 find ... 定義一.本節學習體會，心得：因為之前只是看了Python基礎的內容，以為爬蟲的內容自己會看不懂，但是視頻裏的老師講得很好，生動易懂。學習編程，就要親自練習，看視頻覺得懂了，自己親自做起來，就有了一點阻

路飛學成-Python爬蟲實戰密訓-第1章

https -- style odin 因此一個 div 標簽 htm 1，本節學習體會、心得：　　經過幾個月的努力學完了django。因此才選擇了這個爬蟲課程。經過第一章的學習，再次體會到了python的強大。之前一直為正則發愁，每次都要修改好幾次，才能匹配到。嚴重

路飛學城—python爬蟲實戰密訓-—第1章（作業）

找不到 sla 進行 lse sig -a 後來 spa fin 一：學習心得，體會感覺跟著視頻做的汽車之家，和抽屜網站登錄的爬蟲沒有那麽難。但做github登錄並獲取信息的，就覺得不太容易了，登錄操作挺簡單，和抽屜例子差不多，但獲取個人信息部分就感覺有點麻煩了，主要

路飛學成-Python爬蟲實戰密訓-第3章

請求 ref 流處理自己 ems 需要難點 crawl html 1，本節學習體會、心得：　　本章的內容非常多，scrapy框架的使用。對於學過django的人來說。可能要更好理解一些把。個人感覺還是挺簡單的。所有的知識點一聽就懂，唯一不好的就是時間太緊迫了，不的不

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

Python爬蟲實戰--CSDN部落格爬蟲（附贈瀏覽量小工具）

前言：哈哈，繼續高興一下，通過自己的小手段，讓部落格訪問量過萬啦~怎麼做到的呢？大家想一想我們近來所學的爬蟲知識，養兵千日用兵一時，在前面的學習，我們已經可以很輕鬆的爬去一些中小型和大型網站了，現在我們一起來思考一下，我們該怎麼去爬蟲CSDN網站，並順便提高一下我們部落格的瀏覽量呢？問

Python爬蟲實戰--58同城二手商品爬蟲

嗚嗚~~本來說今天就把程式碼上傳上來，可惜了，還是有點差錯，今天估計趕不上啦！明天加油吧！今天我們一起來好好分析一下，看看我們該如何去爬去58二手商品。這裡我們分成四步來完成本次任務~ 目標站點分析目標URL：http://bj.58.com/sale.shtml 第一步：主頁分析

Python 爬蟲實戰—盤搜搜

相關推薦