更新版-基於python3實現的抓取騰訊視頻所有電影的爬蟲-親測可用

阿新 • • 發佈：2018-07-18

地址找到換行 download 8.0 txt nload details nexus

本人Python小白一枚(妹)，大家都說爬蟲是python入門必學，找了幾個實例，無奈無法運行，猜測可能是技術更新太快，有些已經不適用了。本著學習的決心，試試能不能調通。

原貼地址 https://blog.csdn.net/zhongqi2513/article/details/76896352

下面是我改動的，已經面目全非了??，但是親測可以通過。

也可以看我GitHub

# -*- coding: utf-8 -*-   
import re  
import requests
from bs4 import BeautifulSoup 
import string, time  
import pymongo  

NUM  = 0   #全局變量,電影數量  
#m_type = u''  #全局變量,電影類型  
m_site = u'qq' #全局變量,電影網站  

#根據指定的URL獲取網頁內容  
def getHTML(url):  
  try:
    head = {'User-Agent':'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'}
    r = requests.get(url, headers = head, timeout = 30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    html = r.text
    return html
  except: 
    return ""

#從電影分類列表頁面獲取電影分類 tag = ('1', '劇情')
def getMovieTypeList(url,html):
  #global m_type
  soup = BeautifulSoup(html, 'html.parser')  #過濾出分類內容 
  #print(soup)  

  #<div class="filter_content"> #電影分類信息在div這個標簽下。
  tags_all = soup.find_all('div', {'class' : 'filter_content' })   #找到所有div.filter_content下的a標簽
  
  #<a _stat2="filter:params|subtype=1" class="item" href="?offset=0&amp;subtype=1">劇情</a>
  re_tags = r'<a _stat2=".*?subtype=.*?" class="item" href=".*?;subtype=(.*?)">(.*?)</a>' #(.*?)
  p = re.compile(re_tags) #, re.DOTALL句號(.)是匹配任何除換行符之外的任意字符,使用DOTALL標誌，就可以讓它匹配所有字符，不再排除換行符了
  tags = p.findall(str(tags_all[0]))
  #print('tags = ',tags)

  if tags:
    tags_type = {}

    for tag in tags:
      #print(tag)    #tag = ('1', '劇情')
      #tag_url = url + '?offset=0&subtype=' + tag[0]   #每個電影類型的url
      #print('tag_url = ',tag_url)         
      
      tag_subtype = tag[0]
      m_type = tag[1]
      print('m_type = ',m_type)
      tags_type[m_type] = tag_subtype 
      print('tags_type[m_type] = ',tags_type[m_type])
  else:
    print("Not Find")
  return tags_type


#獲取每個分類的頁數?offset=0&subtype=2
def get_pages(url, tag_type):
  tag_url = url + '?offset=0' + '&subtype=' + tag_type 
  tag_html = getHTML(tag_url)
  soup = BeautifulSoup(tag_html, 'html.parser')  #過濾出標記頁面的html
  #print(soup)

  #<div class="mod_pages" r-notemplate="true">
  div_page = soup.find_all('div', {'class' : 'mod_pages'})
  #print('div_page=',div_page) #len(div_page), div_page[0]
  if div_page == []:  #只有一頁時沒有div標簽，div_page是空[]
    return 1

  #<a _stat2="paging_page|63" class="page_num" href="?subtype=2&amp;offset=1860">63</a>
  re_pages = r'<a _stat2=".*?" class=".*?" href=".*?">(.*?)</a>'
  p = re.compile(re_pages)
  pages = p.findall(str(div_page[0]))
  #print(pages,len(pages))
  if len(pages) > 1:
    return pages[-2]
  else:
    return 1

def getmovielist(m_type, html): #html 分類頁面文本，用gethtml(str(tag_url[1]))
  global NUM
  #global m_type
  global m_site
  soup = BeautifulSoup(html, 'html.parser')
  
  #<ul class="figures_list">
  divs = soup.find_all('ul', {'class' : 'figures_list'})  #movie的信息
  #print(divs)

  
  #<a _stat2="videos:title" href="https://v.qq.com/x/cover/vfx3eugf3h4jiqg.html" target="_blank" title="二十二">二十二</a></strong>
  re_movie = r'<a _stat2="videos:title" href="(.*?)" target=".*?" title=".*?">(.*?)</a>' #(.*?)
  p = re.compile(re_movie, re.DOTALL) #, re.DOTALL句號(.)是匹配任何除換行符之外的任意字符,使用DOTALL標誌，就可以讓它匹配所有字符，不再排除換行符了
  movies = p.findall(str(divs[0]))
  #print(movies)

  #f = open('qqMovies.txt','w')  #如qqMovies.txt存在則覆蓋，無則新建
  if movies:
    #print(movies)
    for movie in movies:
      #print(movie)
      #print(NUM)
      NUM += 1
      print('downloading movies: %d' % NUM)
      #print("%s : %d" % ("=" * 70, NUM))
      #values = dict(movie_title = movie[1], movie_url = movie[0], movie_site  = m_site, movie_type = m_type)   #JSON 格式存儲dict
      values = 'movie_title: %s , movie_url: %s ,movie_site: %s ,movie_type:%s' % (movie[1],movie[0],m_site,m_type) #TXT 格式存儲字符串
      print(values)
      f = open('qqMovies.txt','a')  #以追加的形式讀寫內容，指針在結尾
      f.write(values)
      print("_" * 70)
      f.write('\n' + "_" * 70 + '\n')   #寫入\n換行和-分隔符
  else:
    "Not Found"
  f.write('total movies: %s \n' % str(NUM))  #寫入最後電影總數
  f.close()   #關閉文件


if __name__ == "__main__":
  
  url = 'http://v.qq.com/x/list/movie'
  html = getHTML(url)
  movie_type = getMovieTypeList(url,html)
  print('movie_type = ',movie_type)
  
  for m_url in movie_type.items():
    #print('m_url = ', m_url)
    tag_url = url + '?subtype=' + m_url[1] + '&offset=0'
    print('tag_url = %s' % tag_url, end = '')
    #print('tag_type=',str(m_url[1])) #m_url[0] = '劇情'
    maxpage = int(get_pages(url, str(m_url[1])))
    print(', total pages are ', maxpage)
    for x in range(0,maxpage):
      #http://v.qq.com/x/list/movie?offset=30&subtype=16
      #str.replace(old, new[, max])
      page_url = tag_url.replace('0', '') + str(x*30)
      #print('page_url = ',page_url)  #某個分類下，每個頁面的url，如分類為18的第四頁：http://v.qq.com/x/list/movie?subtype=18&offset=90
      page_html = getHTML(page_url)
      getmovielist(m_url[0],page_html)

      time.sleep(0.1)   #設置sleep時間，以防爬取過快被封IP

更新版-基於python3實現的抓取騰訊視頻所有電影的爬蟲-親測可用

地址找到換行 download 8.0 txt nload details nexus 本人Python小白一枚(妹)，大家都說爬蟲是python入門必學，找了幾個實例，無奈無法運行，猜測可能是技術更新太快，有些已經不適用了。本著學習的決心，試試能不能調通。原貼地址

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

利用Python實現批量下載騰訊視頻！

mar 視頻 http 分鐘交流 ogl 分享圖片 tps 技術分享導語利用Python下載騰訊非VIP視頻，也就是可以免費觀看的視頻。做這個的起因是最近在看一個叫"請吃紅小豆吧"的動漫，一共三分鐘的動漫，廣告時間竟然要一分鐘，實在忍無可忍，於是

python3實現抓取貓眼top100電影資訊

前言：最近正在學習python爬蟲,瞭解一些基礎知識後，還是要實踐動手熟悉。下面文章例子有空再加備註。。import requests import re import json import time from requests.exceptions import Requ

BeautifulSoup4：抓取騰訊社招頁面的招聘資訊

Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 資料。正則、Beautiful Soup、lml對比 lxml 只會區域性遍歷，而Beautifu

簡單四步抓取騰訊視訊MP4檔案

1. 獲取視訊播放頁地址，如：https://v.qq.com/x/page/j0329yq5lu0.html 2. 視訊正片開播後，在H5播放器的右鍵選單中選擇“複製除錯資訊”。注意，一定要是H5播放器！不是Flash播放器！複製出來的資訊如下： {"pid":"5ec03277ec8

Python3.7爬取騰訊地圖關鍵詞位置及電話資訊

朋友創業需要拓展客戶，閒來無事幫朋友搞些資料，網上看到的全是爬取百度地圖的資料，無奈百度地圖AK一直申請不來，便摸索著做個騰訊地圖的小爬蟲，些許小感慨：資料時代，共享無限，隱私難藏啊！實現功能通過指定關鍵詞，自動搜尋騰訊地圖全國範圍內的相關位置及電話資訊，並將結果輸出

爬蟲自動抓取騰訊視訊評論 -- json的使用和資料解析

　　這周和大家分享下騰訊視訊評論抓取爬蟲，實際抓下來的資料裡面除了評論還有其他不少有價值的資訊，有部分使用者資料可以使用的，不過具體就看大家自己怎麼用了。　　這個demo的具體原始碼在最後面，下文將對這個demo的實現過程進行說明。　　其實我挺期待有人評

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四個資料表找到這四個資料表的資訊所在資料名第一條到第三條資料所在其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。於2018\3\17 重寫。一.

抓騰訊視頻真實地址總結

技能 base_url 分析標識 pic llb url dtc d3d 抓騰訊視頻裸源總結騰訊視頻必然是國內最全面,最復雜的視頻網站之一了,因此研究他的網頁結構很有代表性. 首先,騰訊理所當然不會把視頻資源暴露在網頁源代碼裏,所以F12查看他的元素以獲得重要信息你

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

老司機圖文教程教你如何免費下載騰訊視頻的視頻mp4（直接下載到，不用qlv格式轉mp4格式，親測）

bsp 答案微信 mp4 文件合並免費下載說明格式轉換 com 關於如何下載到騰訊視頻的mp4這個問題，大家想必經過多翻搜索，都未必找到滿意的答案吧。下載微信公眾號文章中引用的騰訊視頻的方法也是一樣適用本方法。因為用騰訊視電腦客戶端和手機APP下載到的都是Q

騰訊視頻API --關閉廣告推薦

height enc 使用其中 con tencent arch favor code 官方文檔：http://v.qq.com/open/doc/tvpapi2.0.pdf 使用： <script src="http://imgcache.qq.com/tenc

騰訊視頻播放器V 1.0 去廣告補丁

騰訊視頻用於屏蔽騰訊視頻播放器煩人的視頻廣告。 https://pan.baidu.com/s/1bzIdLO騰訊視頻播放器V 1.0 去廣告補丁

把騰訊視頻嵌入到html中

str 打開網站 wan logs html src allow baidu -------------------------------------------------------------------------------------------------

charles工具過濾騰訊視頻播放器廣告

格式化 rss 發現並不是網絡監控 char pro 監控手機 Charles是一個HTTP代理服務器,HTTP監視器,反轉代理服務器，當程序連接Charles的代理訪問互聯網時，Charles可以監控這個程序發送和接收的所有數據。它允許一個開發者查看所有連接

微信小程序如何播放騰訊視頻?

fine 代碼 .data targe def defined ID undefined 獲取 1.背景因為當時需要做視頻播放，後臺存放視頻文件又不現實。所以，做了一個能解析騰訊視頻地址的並播放視頻的小程序。 2.介紹小程序裏的解析騰訊視頻地址的代碼是參考了一個開源項目

WPF騰訊視頻通話開發

end 訪問 Oz abstract local x86 eight 參考 bin 一、IntPtr、HandleC#中的IntPtr類型稱為“平臺特定的整數類型”，它們用於本機資源，如窗口句柄。1、WPF窗口句柄IntPtr wnip = new

解析騰訊視頻真實地址

分隔解析 cdb 解密 info ret aud json quest 解析騰訊視頻真實地址

更新版-基於python3實現的抓取騰訊視頻所有電影的爬蟲-親測可用

相關推薦