基於webmagic的爬蟲小應用--爬取知乎使用者資訊

阿新 • • 發佈：2019-01-07

最近跟舍友@小瘋一起研究爬蟲
他寫了個小應用-CSDN部落格爬蟲有興趣的朋友可以點進去看看哦~
一起學習。
一起進步。
想要原始碼的朋友點選這裡下載哦~

聽到“爬蟲”，是不是第一時間想到python/php ？多少想玩爬蟲的java學習者就因為語言不通而止步。Java是真的不能做爬蟲嗎？
當然不是。
只不過python的3行程式碼能解決的問題，而Java要30行。

這裡推薦大家一個大牛做的java爬蟲框架【WebMagic】
文件簡單易懂！java爬蟲開發的福利啊！
一起來動手做一個小應用吧！

爬蟲小應用–知乎使用者資訊

爬蟲思想有3步
1. 抽取目標連結

2. 抽取需要的資訊
3. 處理資料

接下來檢視html結構，確定待爬取的目標連結。（這裡我的目標連結是【前10個使用者的詳細資訊頁面的url】）

這裡寫圖片描述

二、抽取需要的資訊（webmagic提供了3種方式，xpath，css選擇，正則表示式。具體可以檢視下[WebMagic文件](http://webmagic.io/docs/zh/)）
這裡寫圖片描述

確定好【目標的資訊】，如下圖。

建立對應的實體物件

package entity;

/**
 * 知乎使用者資訊
 * @author antgan
 *
 */
public class ZhihuUser {
    private String key;//keyword 

    private String name;//使用者名稱
    private String identity;//身份
    private String location;//所在地
    private String profession;//行業
    private int sex;//性別
    private String school;//學校
    private String major;//專業
    private String recommend;//個人簡介
    private String picUrl;//頭像url
    private int agree;//贊同
    private 
 int thanks;//感謝
    private int ask;//提問數
    private int answer;//回答數
    private int article;//文章數
    private int collection;//收藏數


    public String getKey() {
        return key;
    }
    public void setKey(String key) {
        this.key = key;
    }
    public String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    public String getIdentity() {
        return identity;
    }
    public void setIdentity(String identity) {
        this.identity = identity;
    }
    public String getLocation() {
        return location;
    }
    public void setLocation(String location) {
        this.location = location;
    }
    public String getProfession() {
        return profession;
    }
    public void setProfession(String profession) {
        this.profession = profession;
    }
    public int getSex() {
        return sex;
    }
    public void setSex(int sex) {
        this.sex = sex;
    }
    public String getSchool() {
        return school;
    }
    public void setSchool(String school) {
        this.school = school;
    }
    public String getMajor() {
        return major;
    }
    public void setMajor(String major) {
        this.major = major;
    }
    public String getRecommend() {
        return recommend;
    }
    public void setRecommend(String recommend) {
        this.recommend = recommend;
    }
    public String getPicUrl() {
        return picUrl;
    }
    public void setPicUrl(String picUrl) {
        this.picUrl = picUrl;
    }
    public int getAgree() {
        return agree;
    }
    public void setAgree(int agree) {
        this.agree = agree;
    }
    public int getThanks() {
        return thanks;
    }
    public void setThanks(int thanks) {
        this.thanks = thanks;
    }
    public int getAsk() {
        return ask;
    }
    public void setAsk(int ask) {
        this.ask = ask;
    }
    public int getAnswer() {
        return answer;
    }
    public void setAnswer(int answer) {
        this.answer = answer;
    }
    public int getArticle() {
        return article;
    }
    public void setArticle(int article) {
        this.article = article;
    }
    public int getCollection() {
        return collection;
    }
    public void setCollection(int collection) {
        this.collection = collection;
    }
    @Override
    public String toString() {
        return "ZhihuUser [name=" + name + ", identity=" + identity + ", location=" + location + ", profession="
                + profession + ", sex=" + sex + ", school=" + school + ", major=" + major + ", recommend=" + recommend
                + ", picUrl=" + picUrl + ", agree=" + agree + ", thanks=" + thanks + ", ask=" + ask + ", answer="
                + answer + ", article=" + article + ", collection=" + collection + "]";
    }
}

編寫PageProcessor（Processor中的process方法是webmagic的核心，負責抽取目標url的邏輯）

package repo;
import dao.ZhihuDao;
import dao.impl.ZhihuDaoImpl;
import entity.ZhihuUser;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * 知乎使用者小爬蟲<br>
 * 輸入搜尋使用者關鍵詞(keyword)，並把搜出來的使用者資訊爬出來<br>

 * @date 2016-5-3
 * @website ghb.soecode.com
 * @csdn blog.csdn.net/antgan
 * @author antgan
 * 
 */
public class ZhiHuUserPageProcessor implements PageProcessor{
    //抓取網站的相關配置，包括：編碼、抓取間隔、重試次數等
    private Site site = Site.me().setRetryTimes(10).setSleepTime(1000);
    //使用者數量
    private static int num = 0;
    //搜尋關鍵詞
    private static String keyword = "JAVA";
    //資料庫持久化物件，用於將使用者資訊存入資料庫
    private ZhihuDao zhihuDao = new ZhihuDaoImpl();


    /**
     * process 方法是webmagic爬蟲的核心<br>
     * 編寫抽取【待爬取目標連結】的邏輯程式碼在html中。
     */
    @Override
    public void process(Page page) {

        //1. 如果是使用者列表頁面 【入口頁面】，將所有使用者的詳細頁面的url放入target集合中。
        if(page.getUrl().regex("https://www\\.zhihu\\.com/search\\?type=people&q=[\\s\\S]+").match()){
            page.addTargetRequests(page.getHtml().xpath("//ul[@class='list users']/li/div/div[@class='body']/div[@class='line']").links().all());
        }
        //2. 如果是使用者詳細頁面
        else{
            num++;//使用者數++
            /*例項化ZhihuUser，方便持久化儲存。*/
            ZhihuUser user = new ZhihuUser();
            /*從下載到的使用者詳細頁面中抽取想要的資訊，這裡使用xpath居多*/
            /*為了方便理解，抽取到的資訊先用變數儲存，下面再賦值給物件*/
            String name = page.getHtml().xpath("//div[@class='title-section ellipsis']/span[@class='name']/text()").get();
            String identity = page.getHtml().xpath("//div[@class='title-section ellipsis']/span[@class='bio']/@title").get();
            String location = page.getHtml().xpath("//div[@class='item editable-group']/span[@class='info-wrap']/span[@class='location item']/@title").get();
            String profession = page.getHtml().xpath("//div[@class='item editable-group']/span[@class='info-wrap']/span[@class='business item']/@title").get();
            boolean isMale = page.getHtml().xpath("//span[@class='item gender']/i[@class='icon icon-profile-male']").match();
            boolean isFemale = page.getHtml().xpath("//span[@class='item gender']/i[@class='icon icon-profile-female']").match();
            int sex = -1;
            /*因為知乎有一部分人不設定性別 或者 不顯示性別。所以需要判斷一下。*/
            if(isMale&&!isFemale) sex=1;//1代表男性
            else if(!isMale&&isFemale) sex=0;//0代表女性
            else sex=2;//2代表未知
            String school =  page.getHtml().xpath("//span[@class='education item']/@title").get();
            String major = page.getHtml().xpath("//span[@class='education-extra item']/@title").get();
            String recommend =  page.getHtml().xpath("//span[@class='fold-item']/span[@class='content']/@title").get();
            String picUrl = page.getHtml().xpath("//div[@class='body clearfix']/img[@class='Avatar Avatar--l']/@src").get();
            int agree = Integer.parseInt(page.getHtml().xpath("//span[@class='zm-profile-header-user-agree']/strong/text()").get());
            int thanks = Integer.parseInt(page.getHtml().xpath("//span[@class='zm-profile-header-user-thanks']/strong/text()").get());
            int ask = Integer.parseInt(page.getHtml().xpath("//div[@class='profile-navbar clearfix']/a[2]/span[@class='num']/text()").get());
            int answer = Integer.parseInt(page.getHtml().xpath("//div[@class='profile-navbar clearfix']/a[3]/span[@class='num']/text()").get());
            int article = Integer.parseInt(page.getHtml().xpath("//div[@class='profile-navbar clearfix']/a[4]/span[@class='num']/text()").get());
            int collection = Integer.parseInt(page.getHtml().xpath("//div[@class='profile-navbar clearfix']/a[5]/span[@class='num']/text()").get());

            //物件賦值
            user.setKey(keyword);
            user.setName(name);
            user.setIdentity(identity);
            user.setLocation(location);
            user.setProfession(profession);
            user.setSex(sex);
            user.setSchool(school);
            user.setMajor(major);
            user.setRecommend(recommend);
            user.setPicUrl(picUrl);
            user.setAgree(agree);
            user.setThanks(thanks);
            user.setAsk(ask);
            user.setAnswer(answer);
            user.setArticle(article);
            user.setCollection(collection);

            System.out.println("num:"+num +" " + user.toString());//輸出物件
            zhihuDao.saveUser(user);//儲存使用者資訊到資料庫
        }
    }

    @Override
    public Site getSite() {
        return this.site;
    }

    public static void main(String[] args) {
        long startTime ,endTime;
        System.out.println("========知乎使用者資訊小爬蟲【啟動】嘍！=========");
        startTime = new Date().getTime();
        //入口為：【https://www.zhihu.com/search?type=people&q=xxx 】，其中xxx 是搜尋關鍵詞
        Spider.create(new ZhiHuUserPageProcessor()).addUrl("https://www.zhihu.com/search?type=people&q="+keyword).thread(5).run();
        endTime = new Date().getTime();
        System.out.println("========知乎使用者資訊小爬蟲【結束】嘍！=========");
        System.out.println("一共爬到"+num+"個使用者資訊！用時為："+(endTime-startTime)/1000+"s");
    }
}

三、處理資料（這裡我儲存在本地資料庫中）

Dao層介面

package dao;

import entity.ZhihuUser;

/**
 * 知乎 資料持久化 介面
 * @author 甘海彬
 *
 */
public interface ZhihuDao {
    /**
     * 儲存使用者資訊
     * @param user
     * @return
     */
    public int saveUser(ZhihuUser user);
}

Dao實現類

package dao.impl;

import java.util.ArrayList;
import java.util.List;

import dao.ZhihuDao;
import entity.ZhihuUser;
import util.DBHelper;

/**
 * 知乎 資料庫持久化介面 實現
 * @author 甘海彬
 *
 */
public class ZhihuDaoImpl implements ZhihuDao{
    @Override
    public int saveUser(ZhihuUser user) {
        DBHelper dbhelper = new DBHelper();
        StringBuffer sql = new StringBuffer();
        sql.append("INSERT INTO spider_zhihu_user ( `key`,`name`,identity,location,profession,sex,school,major,recommend,picUrl,agree,thanks,ask,answer,article,collection)")
        //`key`,`name`,identity,location,profession,sex,school,major,recommend,picUrl,agree,thanks,ask,answer,article,collection
        .append("VALUES (? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? , ? ) ");
        //設定 sql values 的值
        List<String> sqlValues = new ArrayList<>();
        sqlValues.add(user.getKey());
        sqlValues.add(user.getName());
        sqlValues.add(user.getIdentity());
        sqlValues.add(user.getLocation());
        sqlValues.add(user.getProfession());
        sqlValues.add(""+user.getSex());
        sqlValues.add(user.getSchool());
        sqlValues.add(user.getMajor());
        sqlValues.add(user.getRecommend());
        sqlValues.add(user.getPicUrl());
        sqlValues.add(""+user.getAgree());
        sqlValues.add(""+user.getThanks());
        sqlValues.add(""+user.getAsk());
        sqlValues.add(""+user.getAnswer());
        sqlValues.add(""+user.getArticle());
        sqlValues.add(""+user.getCollection());
        try{
            int result = dbhelper.executeUpdate(sql.toString(),sqlValues);
        }catch(Exception e){
        }finally{
            dbhelper.close();
        }
        return result;
    }
}

這裡我封裝了個DbHelpler類，方便進行持久化操作，使用單例模式，併線程同步。

package util;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.List;

/**
 * JDBC通用類
 * @author GANAB
 *
 */
public class DBHelper {
    public static final String driver_class = "oracle.jdbc.OracleDriver";
    public static final String driver_url = "jdbc:oracle:thin:@ita-031-w7:1521:xe";
    public static final String user = "abel";
    public static final String password = "123";

    private static Connection conn = null;
    private PreparedStatement pst = null;
    private ResultSet rst = null;

    public DBHelper() {
        try {
            conn = getConnInstance();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private Connection getConnInstance() {
        if(conn == null){
            try {
                Class.forName(driver_class);
                conn = DriverManager.getConnection(driver_url, user, password);
            } catch (ClassNotFoundException e) {
                e.printStackTrace();
            } catch (SQLException e) {
                e.printStackTrace();
            }
            System.out.println("Connect success.");
        }
        return conn;
    }

    public void close() {
        try {
            if (pst != null) {
                this.pst.close();
            }
            if (rst != null) {
                this.rst.close();
            }
            if (conn != null) {
                conn.close();
            }
            System.out.println("Close connection success.");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }

    /**
     * query
     * 
     * @param sql
     * @param sqlValues
     * @return ResultSet
     */
    public ResultSet executeQuery(String sql, List<String> sqlValues) {
        try {
            pst = conn.prepareStatement(sql);
            if (sqlValues != null && sqlValues.size() > 0) {
                setSqlValues(pst, sqlValues);
            }
            rst = pst.executeQuery();
        } catch (SQLException e) {
            e.printStackTrace();
        }
        return rst;
    }

    /**
     * update
     * 
     * @param sql
     * @param sqlValues
     * @return result
     */
    public int executeUpdate(String sql, List<String> sqlValues) {
        int result = -1;
        try {
            pst = conn.prepareStatement(sql);
            if (sqlValues != null && sqlValues.size() > 0) {
                setSqlValues(pst, sqlValues);
            }
            result = pst.executeUpdate();
        } catch (SQLException e) {
            e.printStackTrace();
        }

        return result;
    }

    /**
     * sql set value
     * 
     * @param pst
     * @param sqlValues
     */
    private void setSqlValues(PreparedStatement pst, List<String> sqlValues) {
        for (int i = 0; i < sqlValues.size(); i++) {
            try {
                pst.setObject(i + 1, sqlValues.get(i));
            } catch (SQLException e) {
                e.printStackTrace();
            }
        }
    }
}

噢！對了！表的建立sql也提供一下！

CREATE TABLE `spider_zhihu_user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `key` varchar(30) DEFAULT NULL,
  `name` varchar(30) DEFAULT NULL,
  `identity` varchar(100) DEFAULT NULL,
  `location` varchar(20) DEFAULT NULL,
  `profession` varchar(30) DEFAULT NULL,
  `sex` int(2) DEFAULT NULL,
  `school` varchar(30) DEFAULT NULL,
  `major` varchar(30) DEFAULT NULL,
  `recommend` varchar(100) DEFAULT NULL,
  `picUrl` varchar(255) DEFAULT NULL,
  `agree` int(11) DEFAULT NULL,
  `thanks` int(11) DEFAULT NULL,
  `ask` int(11) DEFAULT NULL,
  `answer` int(11) DEFAULT NULL,
  `article` int(11) DEFAULT NULL,
  `collection` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=104 DEFAULT CHARSET=utf8;

以上就是全部程式碼。

進行測試。

這裡寫圖片描述

完美~

你知道可以拿這些資料做什麼呢？
科科，我也不知道。

基於webmagic的爬蟲小應用--爬取知乎使用者資訊

最近跟舍友@小瘋一起研究爬蟲他寫了個小應用-CSDN部落格爬蟲有興趣的朋友可以點進去看看哦~ 一起學習。一起進步。想要原始碼的朋友點選這裡下載哦~ 聽到“爬蟲”，是不是第一時間想到python/php ？多

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

前面幾篇文字我們介紹了相關的爬蟲的方法爬取網站內容和網站的圖片，且儲存到資料庫中。今天呢，我們來次實戰練習，爬取知乎網站跟話題網站top的幾個問題和答案，然後儲存到資料庫中，最後把資料庫中的所有內容再匯出到Excel中。我們還是繼續之前的程式碼，同樣的程式碼

Python的網路爬蟲小系統——爬取京東商城商品資訊

import time from selenium import webdriver keyword = input('請輸入你要搜尋的關鍵字：') brow = webdriver.Firefox() brow.get('http://www.jd.com') searc

Scrapy_redis+scrapyd搭建分散式架構爬取知乎使用者資訊

相關準備： win10作業系統，騰訊雲伺服器，redis，redis dedktop manager,Mongodb 1.在專案開始之前，請確保win10以及伺服器都安裝了redis以及mongodb,並且以win10為主機，win10的redis能夠

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

python requests 爬取知乎使用者資訊

今天嘗試了爬取知乎使用者資訊來練習爬蟲，學到了很多東西，在這裡總結一下心得我沒有使用爬蟲框架，就只用了requests模組，應為爬取的都是json資料，連BeautifulSoup都沒能用上爬取知乎使用者資訊，可以不用模擬登入也能獲取使用者資訊，只有一些設定了隱私才需要登入，

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

爬蟲爬取知乎登陸後首頁

package zhihu; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

用於爬取知乎某個話題下的精華問題中所有回答的爬蟲

思路我的整個演算法的思路還是很簡單的，文字版步驟如下：1、通過話題廣場進入某個話題的頁面，避免了登陸註冊頁面的驗證，查詢到對應要爬取的話題，從 url 中得到話題id2、該頁面的所有資源採用了延遲載入，如果採用模擬瀏覽器進行載入的話還是很麻煩，經研究後發現知乎有前後端資料傳輸的api，所以獲取資料方面

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

Python3爬蟲小程式——爬取各類天氣資訊

本來是想從網上找找有沒有現成的爬取空氣質量狀況和天氣情況的爬蟲程式，結果找了一會兒感覺還是自己寫一個吧。主要是爬取北京包括北京周邊省會城市的空氣質量資料和天氣資料。過程中出現了一個錯誤：UnicodeDecodeError: 'utf-8' codec can't de

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

Python爬蟲爬取知乎小結

最近學習了一點網路爬蟲，並實現了使用python來爬取知乎的一些功能，這裡做一個小的總結。網路爬蟲是指通過一定的規則自動的從網上抓取一些資訊的程式或指令碼。我們知道機器學習和資料探勘等都是從大量的資料出發，找到一些有價值有規律的東西，而爬蟲則可以幫助我們解決

【Python3.6爬蟲學習記錄】（五）Cookie的使用以及簡單的爬取知乎

前言 Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）。有些網站需要登入後才能訪問某個頁面，比如知乎的回答，QQ空間的好友列表、微博上關注的人和粉絲等，在登入之前，你想抓取某

通過Python爬蟲爬取知乎某個問題下的圖片

該爬蟲的完整程式碼我把它放到了GitHub上，因為目前是在一點點的增加功能階段，所以程式碼可能沒有完善好，但是正常執行時沒有問題的，歡迎拍磚，:) 該爬蟲主要是通過requests來實現的，該模組完全可以很好的代替urllib和urllib2，而且功能更強大，詳細可以看這

基於webmagic的爬蟲小應用--爬取知乎使用者資訊

爬蟲小應用–知乎使用者資訊

相關推薦