python3 --小爬蟲（爬取美劇字幕）

阿新 • • 發佈：2019-01-25

# !bin/usr/env python3
# coding=utf-8import re
import urllib.request
from bs4 import BeautifulSoup

'''獲取網址'''
def get_url(url):
    Url = []
    #url = 'http://www.kekenet.com/video/16692/'
f = urllib.request.urlopen(url)
    html = f.read()
    soup = BeautifulSoup(html,'html.parser')
    content = soup.find_all('ul' 
,id='menu-list')
    for tag in content:
        li = tag.find_all('li')        #型別<class 'bs4.element.ResultSet'>
        #print(type(li))
for tag2 in li:
            h = tag2.find_all('h2')
            for tag3 in h:
                h1 = tag3.find_all('a',text=re.compile(r'MP3+'))   # re.compile() 正則表達匹配，匹配內容不能為中文
 
for tag4 in h1:
                    t = tag4.get_text()             #獲取內容
get_url = tag4.get('href')      #獲取URL
Url.append(str(get_url))
    Url = reversed(Url)   #將列表中的所有元素進行倒序排列
return (list(Url))    #必須新增list,將其轉換為list
    #print(list(Url))    
'''獲取網頁中的內容'''
url1 = []
base_url = 'http://www.kekenet.com/video/15830/List_'
 
for i in range(18):
    full_url = base_url + str(i+1) +'.shtml'
url1.append(full_url)
url1.append('http://www.kekenet.com/video/15830/')

# print(url1)
# print(len(url1))
n = 0
for i in range (len(url1)):
    url = url1[i]
    Get_Url = get_url(url)
    for i in range(len(Get_Url)):
        f = urllib.request.urlopen(Get_Url[i])
        html = f.read()
        soup = BeautifulSoup(html,'html.parser')   #解析抓取到到html
title = soup.title.get_text()              #獲取html的title
en_contents = soup.find_all('div',class_='qh_en')
        zg_contents = soup.find_all('div',class_='qh_zg')
        file = 'M_S6.txt'
with open(file,'a') as f:     #追加的方式寫入檔案
            f.write(title)
            n = n+1
for content in zip(en_contents,zg_contents):    #同時輸出兩個列表中的元素，先將其轉化為元組
f.write(content[0].get_text())               #輸出元組中的第一個元素，即第一個列表中的第一個元素
f.write(content[1].get_text())            #輸出元組中的第2個元素，即第2個列表中的第1個元素
f.write('\n')                                 #換行

#break

print(n)

python3 --小爬蟲（爬取美劇字幕）

# !bin/usr/env python3 # coding=utf-8import re import urllib.request from bs4 import BeautifulSoup '

使用golang+代理IP+goquery開發爬蟲（爬取國外電影網站）

package main import ( "fmt" "github.com/PuerkitoBio/goquery" "net/http" "net/url" "time" "strconv"

Scrapy爬取拉鉤網的爬蟲（爬取整站CrawlSpider）

經過我的測試，拉鉤網是一個不能直接進行爬取的網站，由於我的上一個網站是扒的介面，所以這次我使用的是scrapy的整站爬取，貼上當時的程式碼（程式碼是我買的視訊裡面的，但是當時是不需要登陸就可以爬取的）： class LagouSpider(CrawlSpider):

Python爬蟲爬取美劇網站

一直有愛看美劇的習慣，一方面鍛鍊一下英語聽力，一方面打發一下時間。之前是能在視訊網站上面線上看的，可是自從廣電總局的限制令之後，進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是，作為一個宅diao的我又怎甘心沒劇追呢，所以網上隨便查了一下就找到一個能用迅雷下載的美劇

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

原生爬蟲（爬取熊貓直播人氣主播排名）

show () 字節碼 content see http color open span ‘‘‘‘ This is a module ‘‘‘ import re from urllib import request # 斷點調試 class Spider()

scrapy進階（CrawlSpider爬蟲__爬取整站小說）

bool rap val 正則表達 attr 種類 python list false # -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor f

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

python爬蟲（爬取羊車門作業的作業）

程式碼如下 import requests import json import time import os from threading import Timer def getHTML(url): try: r=requests.get(url,t

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

python3實現爬蟲去爬取與python有關的詞條網頁

任務的目標是將百度百科的python頁面的詞彙解釋和與python相關的連結詞彙解釋。通過審查百度百科頁面的編碼可以知道：相關的url連結的編碼格式是：(‘a’, h

Python爬取美劇，再也不用劇荒了，哈哈~

小編最近放元旦假期了，外面冰天雪地的又不想出去玩兒~還是宅在家裡吧~ 但是身為宅女的我怎麼可能不追劇呢？最近小編迷上了美劇，無奈好多網站的美劇質量內容都參差不齊，於是本宅女就得自己動手啦，用Python爬美劇去。走吧~ 小編推薦大家可以加我的扣扣群 735934841 。

java實現簡單的網路爬蟲（爬取電影天堂電影資訊）

在最開始，我們要在網上下載所用到的jar包，應為這只是一個簡單的網路爬蟲所以很多包裡的內容沒有用到。下面幾個包就可以了。並且要引入這些包。主類Bigdata.javaimport org.htmlparser.util.ParserException; public

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

scrapy爬蟲和Django後臺結合（爬取酷我音樂）

程式碼結構： Spider/spider/kuwo.py爬蟲程式碼： # -*- coding: utf-8 -*- import scrapy import demjson import re import os from ..items import Mus

貼吧小爬蟲之爬取原始碼

在做爬蟲工作之前，永遠先做好筆記：確定要爬取的url，爬取的具體內容是什麼，用什麼形式展現爬取到的內容。部落格的標題大家也看到了，爬取的是貼吧的原始碼，也就是說任何貼吧的原始碼都能爬。不光第一頁還要爬，第二頁第三頁……都要爬。確定了上面的內容，那就可以開始程式碼的編寫了。我最近在玩穿越火線

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python3 --小爬蟲（爬取美劇字幕）

相關推薦