Python菜鳥教程（一）-爬b站資料

阿新 • • 發佈：2019-01-25

BeautifulSoup

安裝BeautifulSoup

pip install beautifulsoup4

安裝了python的同學應該都知道python的包管理工具pip，這裡就不贅述了。

切入點

爬網站主要還是找到一個url，當然有api是最好的，很容易就可以爬到自己想要的資料：

url:http://api.bilibili.com/archive_stat/stat?aid=xxx

# ps
b站這個請求太頻繁的拉資料的話，會被封ip的，我現在正在用手機開著熱點，一邊在拉資料，一邊在寫這篇教程

大概抓1w條左右會被檢測出來，然後封個5分鐘左右ip，很多大佬說，做爬蟲要多弄個代理，不會玩。

google了一下，b站用的大概是爬取間隔自適應。就是已經限制了你這個IP的抓取，就不要傻傻重複試，怎麼滴也得休息一會。網易雲音樂操作起來比較簡單，sleep一下就好了。其實sleep的間隔應該按情況累加，比如第一次sleep 10秒，發現還是被約束。那麼就sleep 20秒… 這個間隔的設定已經自適應的最終效果是經驗值。

貼程式碼

import json
from bs4 import BeautifulSoup
from urllib import request

def getScript(url):
        head = {}
        # 這邊是要拼個請求頭的 

        head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'
        req = request.Request(url, headers = head)
        response = request.urlopen(req)
        html = response.read()
        soup = BeautifulSoup(html, 'lxml' 
)
        data = json.loads(soup.text)
        if (data.get("code") ==40003):
            return False;
        else:
            return data.get("data");

if __name__=="__main__":
    for i in range(159007,754613):
        url = 'http://api.bilibili.com/archive_stat/stat?aid='+str(i)
        str1 = getScript(url)
        if str1:
             # IO操作
            with open('D:/result.txt','a+',encoding='utf-8', errors='ignore') as f:
                  f.write(str(str1))
            print(str1)

爬取的部分txt

一夜之後

經過一夜的爬取，讓我們看下爬取的資料

SELECT COUNT(1) FROM video
-- 216997

select aid av號,`view` 播放量,danmaku 彈幕,favorite 喜歡,coin 硬幣,`share` 分享 from video where `view`=(select max(`view`) from video);
-- 225094   8024979 471856  25306   15497   10924

抓取到的這個av號去bilibili看一下，居然是天降之物，居然不是fate！

讓我們看一下fate的連結：

https://bangumi.bilibili.com/anime/1650

– 哇，一聲就哭出來了，mmp

然後搜一下天降之物，有兩個連結：

http://www.bilibili.com/video/av225094/
https://bangumi.bilibili.com/anime/971/

推斷：

b站可能把高點選量的視訊都用，一下連結了：

https://bangumi.bilibili.com/anime/id號/

可能也想由http轉https，讓網站更安全。

好吧，那接下來我們的目標很明確了，就是抓https://bangumi.bilibili.com/anime/id號/這個連結的資料了。

後記

python還是非常有意思的，尤其是從爬蟲這裡入門。

跟java比起來更加的輕巧，剛開始學，有些不會的東西也不需要太深究，跟著大佬們敲一敲。

備註一些學習python的資料：

Python菜鳥教程（一）-爬b站資料

BeautifulSoup 安裝BeautifulSoup pip install beautifulsoup4 安裝了python的同學應該都知道python的包管理工具pip，這裡就不贅述了。切入點爬網站主要還是找到一個ur

SpringBoot菜鳥教程（一）

本人程式媛一枚，近來閒來無事，學習學習springboot，想跟大家分享一下。初學springboot找不到方向各種坑，希望我的文章對初學者有所幫助。首先我自己先建立了一個web專案，但是發

Python 菜鳥筆記（一）Python 入門

一、Python的一些特點通俗易學相比c語言晦澀難懂[至今仍搞不懂，為什麼各大高校紛紛使用c語言作為計算機相關專業的入門語言,no comment]，python更為的接近人類的語言。就這麼說吧，如果你的英語不錯，那麼基本的python程式碼你都能夠看

Linux菜鳥教程（一：JDK安裝和java環境的配置）

東西太簡單，不貼圖了參考了以為大神的配置，然而忘記連結是啥了，sorry。。。 0.下載jdk 選擇對應jdk版本下載。注意與虛擬機器是64還是32位的。 1. 登入Linux，切換到root使

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Java程式設計師從笨鳥到菜鳥之（一）開發環境搭建，基本語法，字串，陣列

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python-matplotlib-入門教程（一）-基礎圖表繪製

0.摘要本教程主要介紹使用python第三方庫matplotlib繪製各種統計圖表，教程從簡單到複雜，逐步遞進。本章主要介紹常見圖表的繪製方法，並以儘可能簡單的方式實現，主要以突出函式功能為目的，防止讀者被複雜的引數分散了注意力。鑑於函式的引數的相似性，讀者只需要知道引數的含義並結合he

ElasticSearch 菜鳥筆記（一）ElasticSearch 入門簡介

前言 ElasticSearch 是一個高可用開源全文檢索和分析元件。提供儲存服務，搜尋服務，大資料準實時分析等。一般用於提供一些提供複雜搜尋的應用。 ElasticSearch 提供了一套基於restful風格的全文檢索服務元件。前身是compass，直到

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Python 極簡教程（一）前言

資料減少數據 pytho 小爬蟲動手爬蟲基礎什麽現在 Python 用處很多，學的人也很多，其流行程度自不必說。但是很多人學 Python 的時候都遇到過問題，特別對於非計算機專業畢業的人來說。現在的教程非常多，但是絕大部分對於初學者都不夠友好。很多教程為了

MySQL菜鳥實錄（一）：MySQL服務安裝實戰

# CentOS 7 ## 基本資訊 - 系統版本： CentOS 7.3 64bit - 系統配置： 4vCPUs | 8GB - 磁碟空間： ``` [root@ecs-ce5a-0001 ~]# df -h Filesystem Size Used Avail Use% Mounted

FastCube.Net元件教程（一）：多維資料集

在本文中將瞭解FastCube.Net庫中包含的元件，元件列表： Cube——從檔案載入多維資料集並用資料填充它的主要元件; CubeGrid——用於顯示多維資料集的所有資料; CubeGridToolbar——是CubeGrid的工具欄; Slice——包含多維資料切片; Slice

python基礎教程（一）

底層技術分享包括什麽事 inpu 內容很多運算下劃線　　之所以選擇py交易有以下幾點：1、python是膠水語言（跨平臺），2、python無所不能（除了底層），3、python編寫方便(notepad++等文本編輯器就能搞事情)，4、滲透方面很多腳本都是py

Java程式設計師從笨鳥到菜鳥之（一百）sql注入攻擊詳解（一）sql注入原理詳解

j ava程式設計師從笨鳥到菜鳥之（七）一—java資料庫操作

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

python3教程（一）：關於python

來看此教程的或多或少都是對程式設計感興趣的。計算機程式語言有很多種，比如java、JavaScript、C、C++、C#、php、python、html等等。計算機程式設計按應用場景分為前端和後端。所謂前端便是我們平常所看到的的軟體包括你現在所看到的網頁都屬於前端，主要是作為給使用者

Python高階教程（一）面向物件

Python 面向物件 Python從設計之初就已經是一門面向物件的語言，正因為如此，在Python中建立一個類和物件是很容易的。本章節我們將詳細介紹Python的面向物件程式設計。如果你以前沒有接觸過面向物件的程式語言，那你可能需要先了解一些面嚮物件語言的一些基本特徵，在頭腦裡頭形

Selenium Python 學習教程（一）

安裝python 開啟 Python官網，找到“Download”, 在其下拉選單中選擇自己的平臺（Windows/Mac）,一般的Linux平臺已經自帶的Python，所以不需要安裝，通過開啟“終端” ，輸入“python”命令來驗證。如果你是第一次接觸Python，一定會迷惑Pyt

AngularJs筆記（看菜鳥教程整理的）

AngularJs學習筆記基本定義：1.ng-app = "" 定義了angularJs的使用範圍;2.ng-init = "變數 = 值;變數 = '值'" 初始化變數的值，有多個變數時，中間用分號隔開；3.ng-model = "變數" 定義變數名;4.ng-bind

Python菜鳥教程（一）-爬b站資料

BeautifulSoup

安裝BeautifulSoup

切入點

貼程式碼

爬取的部分txt

一夜之後

後記

相關推薦