1. 程式人生 > >WebMagic入門--爬取b站視訊標題與時間戳Demo

WebMagic入門--爬取b站視訊標題與時間戳Demo

WebMagic入門–爬取b站視訊標題與時間戳Demo

最近對爬蟲有點感興趣,瞭解了一下java相關的爬蟲框架,選用webmagic作為入門。
寫了個比官方案例還簡單的Demo,甚至可以用簡陋來形容。

package test.t01;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class PageProcess
實現方法 implements PageProcessor{
//設定拼接的url變數 private static int count =123422; //設定網站相關配置 private Site site = Site.me().setRetryTimes(5).setSleepTime(0).setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");//重試次數和抓取間隔 public
void process(Page page) { //視訊標題 System.out.println(page.getHtml().xpath("//h1/span/text()").get()); //時間戳 System.out.println(page.getHtml().xpath("//div/time/text()")); } public Site getSite() { return site; } public static void main(String[] args) { while
(count<130000) { Spider.create(new PageProcess實現方法()).addUrl("https://www.bilibili.com/video/av" + count + "/").thread(1).run(); count++; } } }