python爬蟲——爬取知網體育學刊引證論文資訊

阿新 • • 發佈：2019-02-09

前言

國慶百無聊賴，然後幫一個小姐姐爬取知網資訊，覺得知網算目前處理過的對爬蟲稍微有點防範的網站，遂有了這篇部落格

目標

爬取知網上2003年體育學刊文獻所有論文的引證論文，包括論文名稱、作者、發表時間，也就是下面紅框所指處

點選click處，點選黑框，紅框所指處即為要爬取資料：

分析

知網主體頁面使用ASP（不知道啥東西，類似於jsp一樣的模板吧），我需要爬取的頁面後臺是通過模板解析後返回html頁面，所以不可能捕獲介面獲得json
知網會有iframe，不過沒有巢狀，iframe可以在html中巢狀html，問過前端同學後，才知道這是兩個html檔案，瀏覽器會把兩個html巢狀顯示，iframe在一定程度上會增加爬取難度，一般iframe的src屬性會標記html檔案的url，但是知網的不是，可能是js處理過的，抓包顯示url不是src屬性的值

知網會用cookie跟蹤使用者行為
第一幅圖中，click處的url貌似是經過js處理，直接請求，會出現重定向，返回到知網首頁

難點

知網採用cookie跟蹤使用者行為以及部分url經過js處理，所以我決定使用selenium+chromedriver，但是太慢了，而且有點佔資源，這裡知網有個小漏洞，引證論文頁面不需要cookie，所以第一遍使用selenium+chromedriver處理獲得所有引證論文url（一共299個），第二遍使用urllib+etree單獨處理引證論文（一共6800+）
引證論文存在翻頁，但是翻頁後大量資料會有重複，並且頁面形式不固定，例如某些頁面有A、B、C三處有引證論文，有些頁面有A、B、C、D、E五處引證論文，具體參見知網頁面，這裡考慮到程式健壯性，我選擇每次插入資料前先查一遍資料是否存在（有點蠢），雖然可以使用資料庫的unique欄位，但是異常丟擲太頻繁

程式碼

獲得引證論文url

from selenium import webdriver
import time
from lxml import etree
from urllib import request
from dbmanager_zhiwang import dbmanager_paper

def get_paper(page,index):
    html_parse=etree.HTML(page)
    ul=html_parse.xpath('//div[@class="essayBox"]/ul')[index]
    li_list=ul.findall('li')
    for li in li_list:
        a_list=li.findall('a')
        for index in range(0,len(a_list)):
            print(a_list[index].text)
            if index==0:
                print(a_list[index].tail)   

def get_cookie():
    driver.get('http://kns.cnki.net/kns/brief/default_result.aspx')
    time.sleep(5)
    driver.find_element_by_name('txt_1_value1').send_keys('體育學刊')     
    driver.find_element_by_xpath('//select[@id="txt_1_sel"]//option[@value="LY$%=|"]').click()      
    driver.find_element_by_id('btnSearch').click()    
    time.sleep(5)
      
    

#缺少paperid
def get_url(num):
    elements=driver.find_elements_by_xpath('//table[@class="GridTableContent"]//tr[@bgcolor]')
    for element in elements:
        try:
            a=element.find_element_by_xpath('td/a[@class="fz14"]')
            print(a.get_attribute('href'))
            paper_info=element.text.replace('\n',' ').split(' ')
            paper_title=paper_info[1]
            index=2
            author=''
            while('體育學刊' not in paper_info[index]):
                author=author+paper_info[index]
                index=index+1
            date=paper_info[index+1]
            reference=paper_info[index+3]
            insert_info=(str(num),paper_title,author,date,reference,a.get_attribute('href'))      
            a.click()
            windows = driver.window_handles
            driver.switch_to.window(windows[-1])
            time.sleep(5)
            i=0
            while(i<5):
                i=i+1
                if(etree.HTML(driver.page_source).xpath('//div[@class="yzwx"]/a')!=[]):
                    break
            #不存在引證論文
            url0_list=[]
            url1_list=[]
            url2_list=[]
            if(i!=5):
                html_parse=etree.HTML(driver.page_source)
                url=driver.find_element_by_xpath('//div[@class="yzwx"]/a').get_attribute('href')
                if(url!=None):          
                    print(url)             
                    driver.get(url)
                    html_parse=etree.HTML(driver.page_source)
                    a0_list=html_parse.xpath('//span[@id="CJFQ"]//a')
                    a1_list=html_parse.xpath('//span[@id="CDFD"]//a')
                    a2_list=html_parse.xpath('//span[@id="CMFD"]//a')
                    for a in a0_list:     
                        url0_list.append(a.attrib['href'])
                    
                    for a in a1_list:
                        url1_list.append(a.attrib['href'])
                    
                    for a in a2_list:
                        url2_list.append(a.attrib['href'])     
            db.insert_info(insert_info,url0_list,url1_list,url2_list) 
            num=num+1            

        except Exception as arg:
            print (arg)
        driver.close()
        driver.switch_to_window(windows[0])
        time.sleep(5)
    return num


if __name__=="__main__":
    options = webdriver.ChromeOptions()
    prefs = {
        'profile.default_content_setting_values' :
            {
            'notifications' : 2
             }
    }
    options.add_experimental_option('prefs',prefs)
    driver = webdriver.Chrome(chrome_options = options)
    driver.maximize_window()
    get_cookie()
    db=dbmanager_paper('root','12345','127.0.0.1','zhiwang')
    num=0
    now_page=1
    driver.get('http://kns.cnki.net/kns/brief/brief.aspx?ctl=4a7fde68-1a44-4852-8b23-1a70aeb4cf8b&dest=%E5%88%86%E7%BB%84%EF%BC%9A%E5%8F%91%E8%A1%A8%E5%B9%B4%E5%BA%A6%20%E6%98%AF%202003&action=5&dbPrefix=SCDB&PageName=ASP.brief_default_result_aspx&Param=%e5%b9%b4+%3d+%272003%27&SortType=(FFD%2c%27RANK%27)+desc&ShowHistory=1&isinEn=1')

    while(now_page<16):
        num=get_url(num)
        a_list=driver.find_elements_by_xpath('//div[@class="TitleLeftCell"]//a')
        for a in a_list:
            if(a.text=='下一頁'):
                a.click()
                break
        now_page=now_page+1
        time.sleep(5)

獲得引證論文

from selenium import webdriver
import time
from lxml import etree
from urllib import request
import re
from dbmanager_zhiwang import dbmanager_paper
    

def get_paper(url,paperid):
    req=request.Request(url,headers=header)
    html_page=request.urlopen(req).read().lower().decode('utf-8',errors='ignore')
    html_parse=etree.HTML(html_page)
    ul_list=html_parse.xpath('//div[@class="essaybox"]//ul')
    for ul in ul_list:
        li_list=ul.findall('li')
        for li in li_list:
            try:
                a_list=li.itertext()
                info_temp=''
                for a in a_list:
                    info_temp=info_temp+a.replace(' ','').replace('\r\n','').replace('&nbsp&nbsp','')
                info=info_temp.split('.')
                if(db.judge_exist(info[0])==False):
                    length=len(info)-1
                    if(length<3):
                        deal=info[length]
                        date=re.findall('\d.*',deal)[0]
                        workunit=deal.replace(date,'').replace('年','')
                        info[length]=workunit
                        info.append(date)
                    info.append(str(paperid))
                    if(db.insert_paper_info(tuple(info))==False):
                        return False
            except Exception as arg:
                print(arg)
                return False
    return True


if __name__=="__main__":
    header={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
        }
    db=dbmanager_paper('root','Ll41655184165518','127.0.0.1','zhiwang')
    while(True):
        status='finish'
        result=db.get_url()
        if(result==[]):
            break
        print(result[2])
        if(get_paper(result[2],result[1])==False):
            status='error'
        status_info=(status,result[0])
        db.set_status(status_info)
        time.sleep(10)

最後把資料庫中的資料轉換為excel，部落格中沒有給出資料庫結構，詳情見gayhub（沒有打錯）：https://github.com/zhuoyunli/crawler_zhiwang，裡面有資料庫檔案以及處理好的excel檔案

python爬蟲——爬取知網體育學刊引證論文資訊

前言國慶百無聊賴，然後幫一個小姐姐爬取知網資訊，覺得知網算目前處理過的對爬蟲稍微有點防範的網站，遂有了這篇部落格目標爬取知網上2003年體育學刊文獻所有論文的引證論文，包括論文名稱、作者、發表時間，也就是下面紅框所指處點選click處，點選黑框，紅框所

Python爬蟲-爬取開心網主頁(有登入介面-利用cookie)

爬取開心網主頁內容 ========================================== ======================================= =================================== 1 ''' 2 登入開

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

Python爬蟲爬取知乎小結

最近學習了一點網路爬蟲，並實現了使用python來爬取知乎的一些功能，這裡做一個小的總結。網路爬蟲是指通過一定的規則自動的從網上抓取一些資訊的程式或指令碼。我們知道機器學習和資料探勘等都是從大量的資料出發，找到一些有價值有規律的東西，而爬蟲則可以幫助我們解決

通過Python爬蟲爬取知乎某個問題下的圖片

該爬蟲的完整程式碼我把它放到了GitHub上，因為目前是在一點點的增加功能階段，所以程式碼可能沒有完善好，但是正常執行時沒有問題的，歡迎拍磚，:) 該爬蟲主要是通過requests來實現的，該模組完全可以很好的代替urllib和urllib2，而且功能更強大，詳細可以看這

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

python爬蟲爬取詩詞名句網

使用requests庫，xpath庫 import requests import time from lxml import etree # 去請求頁面的函式 def request_Header(url): headers = { 'User

python爬蟲爬取鬥圖網最新表情包（第二篇）

上一篇文章爬的表情包是套圖，發現還有一千多頁的最新表情包。兩者的網頁結構有點區別，程式碼需要整改下，看下頁面，規律也比較好找。非常氣憤，上一個部落格被其他爬走了，還是一個培訓機構，插了自己的廣告！所有的表情圖片都是在標籤下，數了一下每一頁都是17行，

Python爬蟲-爬取慕課網課程

Python爬取網路圖片使用正則表示式解析Html格式的檔案(其他更好的方法以後會繼續更新) 獲取慕課網課程圖片從網站上獲取課程圖片首先檢視頁面html程式碼圖2 html程式

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

python 爬取知網url

由於知網存在非同步載入，爬取需要獲得queryid，cookies等程式碼如下： #coding:utf-8 ''' Created on 2016-8-15 @author: 劉帥 ''' import urllib2 from bs4 impor

python 爬蟲爬取煎蛋網妹子圖

前言大家好，這裡是「Python知識圈」爬蟲系列教程。此文首發於「brucepk」公眾號，歡迎大家去關注。此係列教程以例項專案為材料進行分析，從專案中學習 python 爬蟲，跟著我一起學習，每天進步一點點。煎蛋網站煎蛋網.png 很多朋友都反應學 pyt

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

python爬蟲: 爬取拉勾網職位並分析

0. 前言本文從拉勾網爬取深圳市資料分析的職位資訊，並以CSV格式儲存至電腦, 之後進行資料清洗, 生成詞雲，進行描述統計和迴歸分析,最終得出結論. 1. 用到的軟體包 Python版本： Python3.6 requests: 下載網

python爬蟲——爬取知網體育學刊引證論文資訊

前言

目標

分析

難點

程式碼

相關推薦