網路爬蟲-視訊抓取
通過爬蟲抓取視訊
抓取視訊下載連結,傳送Http請求,讀取檔案流儲存到指定位置即可(只能抓取http|https協議的請求,像迅雷這些抓不了)
package zack;
import java.io.ByteArrayOutputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class DownloadFile {
public static void downLoadFromUrl(String urlStr, String fileName, String savePath) throws IOException
{
URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.setConnectTimeout(3000);
conn.setRequestProperty("User-Agent" ,
"Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
InputStream inputStream = conn.getInputStream();
byte[] getData = readInputStream(inputStream);
java.io.File saveDir = new java.io.File(savePath);
if (!saveDir.exists()) {
saveDir.mkdir();
}
java.io.File file = new java.io.File(saveDir + java.io.File.separator + fileName);
FileOutputStream fos = new FileOutputStream(file);
fos.write(getData);
if (fos != null) {
fos.close();
}
if (inputStream != null) {
inputStream.close();
}
}
public static byte[] readInputStream(InputStream inputStream)
throws IOException
{
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while ((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}
bos.close();
return bos.toByteArray();
}
public static void main(String[] args) {
String urlStr="http://vt1.doubanio.com/201712041922/92e1a9bc7c77a12560bd81de20992ee5/view/movie/M/302220748.mp4";
long imageTitile = System.currentTimeMillis();
String fileName = imageTitile + "." + "mp4";
String savePath="F:\\Vidio";
try {
DownloadFile.downLoadFromUrl(urlStr, fileName, savePath);
} catch (IOException e) {
e.printStackTrace();
}
}
}
相關推薦
網路爬蟲-視訊抓取
通過爬蟲抓取視訊 抓取視訊下載連結,傳送Http請求,讀取檔案流儲存到指定位置即可(只能抓取http|https協議的請求,像迅雷這些抓不了) package zack; import java.io.ByteArrayOutputStream;
網路爬蟲在抓取頁面超時時候應該怎麼處理?
我們可以設定一個超時時間,在發起請求的這個時間超過這個設定時間後丟擲異常,我們對其進行處理 我在這裡簡單寫一個 demo: from urllib import request from urllib import error import socket try:
Python網路爬蟲之抓取訂餐資訊
本文以大眾點評網為例,獲取頁面的餐館資訊,以達到練習使用python的目的。 1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):
網路爬蟲/資料抓取,反爬蟲(更新版)
知己知彼,百戰不殆 想要反網路爬蟲,首先需要了解網路爬蟲,基本概念不說了,這裡主要對網路爬蟲的特徵進行闡述: 大多數是高訪問量; 大多數是定時(可加入salt隨機時間); IP基本固定/不變(IP代理可跳過); 如何反爬蟲 反爬蟲的思路主要是區別爬蟲
Java實現網路爬蟲001-抓取網頁
package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.
基於Java的網路爬蟲實現抓取網路小說(一)
package novel.spider.impl; import java.util.ArrayList; import java.util.List; import org.apache.http.client.methods.CloseableHttpResponse; import org.apa
網路爬蟲--python抓取豆瓣同城北京地區活動資訊
import re import requests import os import sys #url = 'https://beijing.douban.com/events/future-music?start=0' #header = {'User-Agent':'Mozilla/5.0 (Windo
java 開發用到網路爬蟲,抓取汽車之家網站全部資料經歷
經歷了兩個禮拜的折騰,某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。 說一下我的犯罪經歷,之前公司總是抓取某某網站資料,可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為,導致我們的抓取功能報錯,逐步跟蹤,發現我們之前是在人家的網站,通過Webh
爬蟲自動抓取騰訊視訊評論 -- json的使用和資料解析
這周和大家分享下騰訊視訊評論抓取爬蟲,實際抓下來的資料裡面除了評論還有其他不少有價值的資訊,有部分使用者資料可以使用的,不過具體就看大家自己怎麼用了。 這個demo的具體原始碼在最後面,下文將對這個demo的實現過程進行說明。 其實我挺期待有人評
python學習第一彈:爬蟲(抓取博客園新聞)
結果 csv hid window 相關數 解析html 可能 一個 _id 前言 說到python,對它有點耳聞的人,第一反應可能都是爬蟲~ 這兩天看了點python的皮毛知識,忍不住想寫一個簡單的爬蟲練練手,JUST DO IT 準備工作 要制作數據
爬蟲發起抓取被服務器拒絕訪問返回403禁止訪問解決方案
http white 抓取 ray 現在 情況 訪問 creat exception 現在很多網站的api接口返回httpcode返回碼是403提示禁止訪問。如果您也遇到這樣的情況,請先不要急著去修改網站相關的參數 第一、先進api的網站。用瀏覽器訪問,如果瀏覽器訪問該a
爬蟲-day02-抓取和分析
https baidu gzip ace .text python htm conn code ###頁面抓取### 1、urllib3 是一個功能強大且好用的HTTP客戶端,彌補了Python標準庫中的不足 安裝: pip install urllib3
python學習筆記——爬蟲的抓取策略
寬度優先 寬度 重要 ron image alt 學習 http 技術 1 深度優先算法 2 廣度/寬度優先策略 3 完全二叉樹遍歷結果 深度優先遍歷的結果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 廣度優先遍
Python爬蟲:抓取手機APP的數據
sig ner ont sele ebo span fail pytho 抓取 摘要: 大多數APP裏面返回的是json格式數據,或者一堆加密過的數據 。這裏以超級課程表APP為例,抓取超級課程表裏用戶發的話題。 1、抓取APP數據包 方法詳細可以參考這篇博文:
網路爬蟲:爬取動態網頁
import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = '
【爬蟲】抓取msdn.itellyou.cn所有作業系統映象下載連結
msdn.itellyou.cn這個網站首頁是SPA單頁應用,所有資料用過請求restfulAPI來獲取,然後動態生成頁面。 通過chrome的除錯工具可以抓取到獲取資料的API介面地址,以及引數情況。 get_download_list函式中傳入的id是在首頁作業系統頁面抓到的。
如何使用免費爬蟲軟體抓取大眾點評商家電話資訊!請勿洩露資訊!
本文主要介紹如何使用后羿採集器的 智慧模式 ,免費採集大眾點評商家的地址、人均、評價、電話等資訊。 採集工具簡介: 后羿採集器是一款基於人工智慧技術的網頁採集器,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux
python實戰之網路爬蟲(爬取新聞內文資訊)
(1)前期準備:開啟谷歌瀏覽器,進入新浪新聞網國內新聞頁面,點選進入其中一條新聞,開啟開發者工具介面。獲取當前網頁資料,然後使用BeautifulSoup進行剖析,程式碼: import requests from bs4 import BeautifulSoup res = requests.
python實戰之網路爬蟲(爬取網頁新聞資訊列表)
關於大資料時代的資料探勘 (1)為什麼要進行資料探勘:有價值的資料並不在本地儲存,而是分佈在廣大的網路世界,我們需要將網路世界中的有價值資料探勘出來供自己使用 (2)非結構化資料:網路中的資料大多是非結構化資料,如網頁中的資料都沒有固定的格式 (3)非結構化資料的挖掘--ETL:即三個步
python爬蟲之抓取代理伺服器IP
轉載請標明出處: http://blog.csdn.net/hesong1120/article/details/78990975 本文出自:hesong的專欄 前言 使用爬蟲爬取網站的資訊常常會遇到的問題是,你的爬蟲行為被對方識別了,對方把你的IP遮蔽了,返回