1. 程式人生 > >網路爬蟲-視訊抓取

網路爬蟲-視訊抓取

通過爬蟲抓取視訊

抓取視訊下載連結,傳送Http請求,讀取檔案流儲存到指定位置即可(只能抓取http|https協議的請求,像迅雷這些抓不了)

package zack;

import java.io.ByteArrayOutputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class DownloadFile
{
public static void downLoadFromUrl(String urlStr, String fileName, String savePath) throws IOException { URL url = new URL(urlStr); HttpURLConnection conn = (HttpURLConnection)url.openConnection(); conn.setConnectTimeout(3000); conn.setRequestProperty("User-Agent"
, "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"); InputStream inputStream = conn.getInputStream(); byte[] getData = readInputStream(inputStream); java.io.File saveDir = new java.io.File(savePath); if (!saveDir.exists()) { saveDir.mkdir(); } java.io.File file = new
java.io.File(saveDir + java.io.File.separator + fileName); FileOutputStream fos = new FileOutputStream(file); fos.write(getData); if (fos != null) { fos.close(); } if (inputStream != null) { inputStream.close(); } } public static byte[] readInputStream(InputStream inputStream) throws IOException { byte[] buffer = new byte[1024]; int len = 0; ByteArrayOutputStream bos = new ByteArrayOutputStream(); while ((len = inputStream.read(buffer)) != -1) { bos.write(buffer, 0, len); } bos.close(); return bos.toByteArray(); } public static void main(String[] args) { String urlStr="http://vt1.doubanio.com/201712041922/92e1a9bc7c77a12560bd81de20992ee5/view/movie/M/302220748.mp4"; long imageTitile = System.currentTimeMillis(); String fileName = imageTitile + "." + "mp4"; String savePath="F:\\Vidio"; try { DownloadFile.downLoadFromUrl(urlStr, fileName, savePath); } catch (IOException e) { e.printStackTrace(); } } }

相關推薦

網路爬蟲-視訊

通過爬蟲抓取視訊 抓取視訊下載連結,傳送Http請求,讀取檔案流儲存到指定位置即可(只能抓取http|https協議的請求,像迅雷這些抓不了) package zack; import java.io.ByteArrayOutputStream;

網路爬蟲頁面超時時候應該怎麼處理?

我們可以設定一個超時時間,在發起請求的這個時間超過這個設定時間後丟擲異常,我們對其進行處理 我在這裡簡單寫一個 demo: from urllib import request from urllib import error import socket try:

Python網路爬蟲訂餐資訊

         本文以大眾點評網為例,獲取頁面的餐館資訊,以達到練習使用python的目的。              1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

網路爬蟲/資料,反爬蟲(更新版)

知己知彼,百戰不殆 想要反網路爬蟲,首先需要了解網路爬蟲,基本概念不說了,這裡主要對網路爬蟲的特徵進行闡述: 大多數是高訪問量; 大多數是定時(可加入salt隨機時間); IP基本固定/不變(IP代理可跳過); 如何反爬蟲 反爬蟲的思路主要是區別爬蟲

Java實現網路爬蟲001-網頁

package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.

基於Java的網路爬蟲實現網路小說(一)

package novel.spider.impl; import java.util.ArrayList; import java.util.List; import org.apache.http.client.methods.CloseableHttpResponse; import org.apa

網路爬蟲--python豆瓣同城北京地區活動資訊

import re import requests import os import sys #url = 'https://beijing.douban.com/events/future-music?start=0' #header = {'User-Agent':'Mozilla/5.0 (Windo

java 開發用到網路爬蟲汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰,某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。 說一下我的犯罪經歷,之前公司總是抓取某某網站資料,可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為,導致我們的抓取功能報錯,逐步跟蹤,發現我們之前是在人家的網站,通過Webh

爬蟲自動騰訊視訊評論 -- json的使用和資料解析

  這周和大家分享下騰訊視訊評論抓取爬蟲,實際抓下來的資料裡面除了評論還有其他不少有價值的資訊,有部分使用者資料可以使用的,不過具體就看大家自己怎麼用了。   這個demo的具體原始碼在最後面,下文將對這個demo的實現過程進行說明。   其實我挺期待有人評

python學習第一彈:爬蟲博客園新聞)

結果 csv hid window 相關數 解析html 可能 一個 _id 前言   說到python,對它有點耳聞的人,第一反應可能都是爬蟲~   這兩天看了點python的皮毛知識,忍不住想寫一個簡單的爬蟲練練手,JUST DO IT 準備工作   要制作數據

爬蟲發起被服務器拒絕訪問返回403禁止訪問解決方案

http white 抓取 ray 現在 情況 訪問 creat exception 現在很多網站的api接口返回httpcode返回碼是403提示禁止訪問。如果您也遇到這樣的情況,請先不要急著去修改網站相關的參數 第一、先進api的網站。用瀏覽器訪問,如果瀏覽器訪問該a

爬蟲-day02-和分析

https baidu gzip ace .text python htm conn code ###頁面抓取### 1、urllib3 是一個功能強大且好用的HTTP客戶端,彌補了Python標準庫中的不足 安裝: pip install urllib3

python學習筆記——爬蟲策略

寬度優先 寬度 重要 ron image alt 學習 http 技術 1 深度優先算法 2 廣度/寬度優先策略 3 完全二叉樹遍歷結果 深度優先遍歷的結果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 廣度優先遍

Python爬蟲手機APP的數據

sig ner ont sele ebo span fail pytho 抓取 摘要: 大多數APP裏面返回的是json格式數據,或者一堆加密過的數據 。這裏以超級課程表APP為例,抓取超級課程表裏用戶發的話題。 1、抓取APP數據包 方法詳細可以參考這篇博文:

網路爬蟲:爬動態網頁

import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '

爬蟲msdn.itellyou.cn所有作業系統映象下載連結

msdn.itellyou.cn這個網站首頁是SPA單頁應用,所有資料用過請求restfulAPI來獲取,然後動態生成頁面。 通過chrome的除錯工具可以抓取到獲取資料的API介面地址,以及引數情況。 get_download_list函式中傳入的id是在首頁作業系統頁面抓到的。

如何使用免費爬蟲軟體大眾點評商家電話資訊!請勿洩露資訊!

本文主要介紹如何使用后羿採集器的 智慧模式 ,免費採集大眾點評商家的地址、人均、評價、電話等資訊。 採集工具簡介: 后羿採集器是一款基於人工智慧技術的網頁採集器,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux

python實戰之網路爬蟲(爬新聞內文資訊)

(1)前期準備:開啟谷歌瀏覽器,進入新浪新聞網國內新聞頁面,點選進入其中一條新聞,開啟開發者工具介面。獲取當前網頁資料,然後使用BeautifulSoup進行剖析,程式碼: import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲(爬網頁新聞資訊列表)

關於大資料時代的資料探勘 (1)為什麼要進行資料探勘:有價值的資料並不在本地儲存,而是分佈在廣大的網路世界,我們需要將網路世界中的有價值資料探勘出來供自己使用 (2)非結構化資料:網路中的資料大多是非結構化資料,如網頁中的資料都沒有固定的格式 (3)非結構化資料的挖掘--ETL:即三個步

python爬蟲代理伺服器IP

轉載請標明出處: http://blog.csdn.net/hesong1120/article/details/78990975 本文出自:hesong的專欄 前言 使用爬蟲爬取網站的資訊常常會遇到的問題是,你的爬蟲行為被對方識別了,對方把你的IP遮蔽了,返回