python爬蟲（以簡書為例）

阿新 • • 發佈：2018-04-29

split agen jieba分詞 nco spa 數據保存列表 style regular

1.主題：

簡單爬取簡書中的專題‘’@IT·互聯網“中的文章，爬取信息之後通過jieba分詞生成詞雲並且進行分析；

2.實現過程：

第一步：打開簡書並進入到@IT-互聯網專題

網頁鏈接：https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop

技術分享圖片

通過觀察，我們可以發現網頁中的文章並沒有分頁，而是通過下拉滾動條js生成下一頁

我們可以進入開發者工具觀察得知，每次拉到網頁的最後都會多一條請求，仔細觀察它們之間是存在著一定的規律的

技術分享圖片

它們都是https://www.jianshu.com/c/V2CqjW?order_by=added_at&page={}這樣的格式，改變的值只是page中的數字，是否這就是我們所需要的頁碼呢，可以通過訪問途中鏈接驗證。

現在我們已經取得所需要的鏈接，便可寫出循環的代碼，

但是我們並不知道具體有多少頁，這時，我們通過觀察網頁以及網頁源碼，可以發現

技術分享圖片

在專題下面有收錄了多少篇文章的字樣，即我們只需要獲取到共有多少篇文章再除以每頁多少篇文章即可得出總頁數。分析源碼可以輕松找到

技術分享圖片

然後我們就可以寫出以下代碼來獲取它的頁數

註意，由於網頁的安全性問題，直接使用requests,get(url)是無法獲取到簡書網頁的源碼的，所以我們要加上瀏覽器信息

獲取方法

技術分享圖片

接著，編寫代碼

headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36 
‘
    }

def getPageN():
    url = ‘https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop‘
    resp = requests.get(url, headers=headers)
    html_content = resp.text  # 得到網頁內容
    soup = BeautifulSoup(html_content, ‘lxml‘)  # 開始解析
    info = soup.select(‘.info‘)[0].text
    pagenumber 
=int(info[info.find(‘收錄了‘):].split()[0].lstrip(‘收錄了‘).rstrip(‘篇文章‘))
    a = len(soup.find_all(‘a‘, class_=‘title‘))
    page = pagenumber//a+1
    return page

第二步：取出一個文章列表頁的全部文章

觀察網頁源碼可知道每篇文章的具體鏈接是

技術分享圖片

最後通過循環獲得所有文章的鏈接

def getListPage(pageUrl):   
    res = requests.get(pageUrl,headers=headers)
    html_content = res.text  
    soup = BeautifulSoup(html_content, ‘lxml‘)

    newslist = []
    for i in range(len(soup.find_all(‘a‘, class_=‘title‘))):
        Url = soup.find_all(‘a‘, class_=‘title‘)[i].attrs[‘href‘]
        newsUrl = "https://www.jianshu.com" + Url
        newslist.append(getNewsDetail(newsUrl))

    return(newslist)

第三步：獲得一篇文章的全部內容，並進行分析

def getNewsDetail(newsUrl):   #一篇文章的全部內容
    resd = requests.get(newsUrl,headers=headers)
    html_content = resd.text
    soupd = BeautifulSoup(html_content, ‘lxml‘)

    news = {}
    news[‘標題‘] = soupd.select(‘.title‘)[0].text
    news[‘作者‘] = soupd.select(‘.name‘)[0].text
    news[‘時間‘] = datetime.strptime(soupd.select(‘.publish-time‘)[0].text.rstrip(‘*‘), ‘%Y.%m.%d %H:%M‘)
    news[‘字數‘] = soupd.select(‘.wordage‘)[0].text.lstrip(‘字數 ‘)
    # news[‘內容‘] = soupd.select(‘.show-content-free‘)[0].text.strip()
    news[‘鏈接‘] = newsUrl
    content= soupd.select(‘.show-content-free‘)[0].text.strip()
    writeNewsDetail(content)
    return(news)

到這裏，基本的爬取工作已經完成了

3.把數據保存成文本：

def writeNewsDetail(content):
    f = open(‘content.txt‘,‘a‘,encoding=‘utf-8‘)
    f.write(content)
    f.close()

技術分享圖片

以及生成excel表格

import pandas
df = pandas.DataFrame(newstotal)
df.to_excel(‘簡書數據.xlsx‘)

技術分享圖片

4.生成詞雲：

file = codecs.open(‘content.txt‘, ‘r‘, ‘utf-8‘)
image=np.array(Image.open(‘ditu.jpg‘))
font=r‘C:\Windows\Fonts\AdobeHeitiStd-Regular.otf‘
word=file.read()
#去掉英文，保留中文
resultword=re.sub("[A-Za-z0-9\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\‘\:\;\‘\,\[\]\.\<\>\/\?\~\！\@\#\\\&\*\%]", "",word)
wordlist_after_jieba = jieba.cut(resultword, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

# 設置停用詞
stopwords = set(STOPWORDS)
stopwords.add("一個")
my_wordcloud = WordCloud(font_path=font,mask=image,stopwords=stopwords,background_color=‘white‘,max_words = 2000,max_font_size = 100,random_state=50).generate(wl_space_split)
#根據圖片生成詞雲
iamge_colors = ImageColorGenerator(image)
#my_wordcloud.recolor(color_func = iamge_colors)
#顯示生成的詞雲
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
#保存生成的圖片，當關閉圖片時才會生效，中斷程序不會保存
my_wordcloud.to_file(‘result.jpg‘)

生成的詞雲圖片：

技術分享圖片

5.遇到的問題：

1、文章總頁數只能爬取到200頁，再繼續爬取下去出現的只是重復的數據，沒有找到解決辦法，但是對於練習而言，兩百頁的數據也足夠了。

2、安裝詞雲遇到的問題

解決辦法：

通過閱讀其他博客尋找到的解決辦法

在https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 中下載對應python版本和window 32/64位版本

技術分享圖片

因為我電腦的python版本是3.6，32位系統，所以下載 wordcloud?1.4.1?cp36?cp36m?win32.whl文件並把文件放在D盤

cmd命令行進入對應wordcloud安裝路徑，我是放在F盤，所以進入D：輸入 pip install wordcloud?1.4.1?cp36?cp36m?win32.whl 即可成功導入

最後，手動為pycharm添加lib，手動找到wordCloud安裝路徑，復制到C:\User\ - \PycharmProjects\**\verv\lib 中即可，（**表示自己創建的項目名字）

技術分享圖片

6.完整代碼：

import re
import requests
import pandas
from bs4 import BeautifulSoup
from datetime import datetime
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import codecs
import numpy as np
from PIL import Image

headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘
    }

def writeNewsDetail(content):
    f = open(‘content.txt‘,‘a‘,encoding=‘utf-8‘)
    f.write(content)
    f.close()

def getNewsDetail(newsUrl):   #一篇文章的全部內容
    resd = requests.get(newsUrl,headers=headers)
    html_content = resd.text
    soupd = BeautifulSoup(html_content, ‘lxml‘)

    news = {}
    news[‘標題‘] = soupd.select(‘.title‘)[0].text
    news[‘作者‘] = soupd.select(‘.name‘)[0].text
    news[‘時間‘] = datetime.strptime(soupd.select(‘.publish-time‘)[0].text.rstrip(‘*‘), ‘%Y.%m.%d %H:%M‘)
    news[‘字數‘] = soupd.select(‘.wordage‘)[0].text.lstrip(‘字數 ‘)
    # news[‘內容‘] = soupd.select(‘.show-content-free‘)[0].text.strip()
    news[‘鏈接‘] = newsUrl
    content= soupd.select(‘.show-content-free‘)[0].text.strip()
    writeNewsDetail(content)
    return(news)

def getListPage(pageUrl):
    res = requests.get(pageUrl,headers=headers)
    html_content = res.text
    soup = BeautifulSoup(html_content, ‘lxml‘)

    newslist = []
    for i in range(len(soup.find_all(‘a‘, class_=‘title‘))):
        Url = soup.find_all(‘a‘, class_=‘title‘)[i].attrs[‘href‘]
        newsUrl = "https://www.jianshu.com" + Url
        newslist.append(getNewsDetail(newsUrl))

    return(newslist)


def getPageN():
    url = ‘https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop‘
    resp = requests.get(url, headers=headers)
    html_content = resp.text  # 得到網頁內容
    soup = BeautifulSoup(html_content, ‘lxml‘)  # 開始解析
    info = soup.select(‘.info‘)[0].text
    pagenumber=int(info[info.find(‘收錄了‘):].split()[0].lstrip(‘收錄了‘).rstrip(‘篇文章‘))
    a = len(soup.find_all(‘a‘, class_=‘title‘))
    page = pagenumber//a+1
    return page

newstotal = []
firstPageUrl=‘https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop‘
newstotal.extend(getListPage(firstPageUrl))
for i in range(2,201):
    listPageUrl=‘https://www.jianshu.com/c/V2CqjW?order_by=added_at&page={}‘.format(i)
    newstotal.extend(getListPage(listPageUrl))

df = pandas.DataFrame(newstotal)
df.to_excel(‘簡書數據.xlsx‘)

file = codecs.open(‘content.txt‘, ‘r‘, ‘utf-8‘)
image=np.array(Image.open(‘ditu.jpg‘))
font=r‘C:\Windows\Fonts\AdobeHeitiStd-Regular.otf‘
word=file.read()
#去掉英文，保留中文
resultword=re.sub("[A-Za-z0-9\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\‘\:\;\‘\,\[\]\.\<\>\/\?\~\！\@\#\\\&\*\%]", "",word)
wordlist_after_jieba = jieba.cut(resultword, cut_all = True)

wl_space_split = " ".join(wordlist_after_jieba)

# 設置停用詞
stopwords = set(STOPWORDS)
stopwords.add("一個")
my_wordcloud = WordCloud(font_path=font,mask=image,stopwords=stopwords,background_color=‘white‘,max_words = 2000,max_font_size = 100,random_state=50).generate(wl_space_split)
#根據圖片生成詞雲
iamge_colors = ImageColorGenerator(image)
#my_wordcloud.recolor(color_func = iamge_colors)
#顯示生成的詞雲
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
#保存生成的圖片，當關閉圖片時才會生效，中斷程序不會保存
my_wordcloud.to_file(‘result.jpg‘)

7.數據分析與結論：

通過對爬取的數據分析可以發現：產品、用戶、數據、信息、分析、平臺、市場、服務、應用、價值、內容等關鍵詞尤為重要。

這些關鍵詞也是互聯網行業中值得註意的，例如通過數據信息等分析人們的需求等，是當今互聯網行業中重要的一環，

所以通過爬蟲獲取信息進行有效分析也顯得尤為重要。

python爬蟲（以簡書為例）

split agen jieba分詞 nco spa 數據保存列表 style regular 1.主題：簡單爬取簡書中的專題‘’@IT·互聯網“中的文章，爬取信息之後通過jieba分詞生成詞雲並且進行分析； 2.實現過程：第一步：打開簡書並進入到@I

詳解如何用爬蟲程式採集新聞資訊資料（以中國日報為例）

半個世紀以來，隨著計算機技術全面融入社會生活，資訊爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的資訊，而且其增長速度也在加快，創造出了“大資料（Big Data）”這個概念。如今，這個概念幾乎應用到了所有人類智力與發展的領域中。 Big Data是近來的一個技術熱點，歷

Python sklearn庫實現PCA（以鳶尾花分類為例）

PCA簡介主成分分析（Principal Component Analysis，PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。矩陣的主成分就是其協

python web開發虛擬環境安裝與配置（以flask開發為例）

為什麼要搭建虛擬環境？問題：如果在一臺電腦上, 想開發多個不同的專案, 需要用到同一個包的不同版本, 如果使用上面的命令, 在同一個目錄下安裝或者更新, 新版本會覆蓋以前的版本, 其它的專案就無法運行了. 解決方案 :虛擬環境作用 : 虛擬環境可以搭建獨立的p

python 股票價格預測（以中興通訊為例）

Python 股票價格預測（以中興通訊為例）程式碼塊程式碼塊語法遵循標準markdown程式碼，例如： import pandas as pd import tushare as ts begin_time = '2018-06-08' e

python：執行外部程式（以stata程式為例）

桌面存在一個stata的do檔案dofile.do：clear all sysuse auto regress price weight lengthpython程式碼為：#note：需要用到subprocess模組 import os # 改變路徑到stata程式所在目錄

uboot中 make xxx_config 的作用（以make smdk2410_config為例）

mdk nbsp xxx cpu clu samsung uboot 作用頭文件 1、創建到目標板相關文件的鏈接 ln -s asm-arm asm ln -s arch-s3c24x0 asm-arm/arch ln -s proc-armv asm-arm/pr

基於TI Davinci架構的多核/雙核開發高速掃盲（以OMAP L138為例），dm8168多核開發參考以及達芬奇系列資料user guide整理

uwa 全部 dap setting pos eclips develop serial ger 基於TI Davinci架構的雙核嵌入式應用處理器OMAPL138開發入門原文轉自http://blog.csdn.net/wangpengqi/article/de

C#語言中數組與集合的區別（以List集合為例）

類型添加元素 list 添加一個保存操作方法適用於 length 數組用於保存固定數量的數據，定長，占用內存少，遍歷速度快；集合保存的數據數量，可以在程序的執行過程中，不斷發生變化，不定長，占用內存多，遍歷速度慢；在功能上，數組能實現的所有功能，集合都能實現；

centos7設置服務為開機自啟動（以crond.serivce為例）

centos7服務開機自啟動一、設置crond.serivice服務為開機自啟動步驟1：查看crond.serivce服務的自啟動狀態[root@localhost ~]# systemctl is-enabled crond.servicedisabled此時crond.serivce的自啟動狀態為disa

Vue（二十三）vuex + axios + 緩存運用（以登陸功能為例）

right nms error http 登錄 password osi ref local （一）axios 封裝（1）axios攔截器可以在axios中加入加載的代碼。。。（2）封裝請求後期每個請求接口都可以寫在這個裏面。。。（二）vuex

PHPEmailer使用簡介（以qq郵箱為例）

reply Opens 安全 client 下載 attach 後來問題： from 1、從網上下載PHPEmailer； 2、確保PHP環境支持sockets擴展，還要開啟openssl，如下圖： 3、配置QQ郵箱　　1.開啟SMTP服務　　　　2.驗證密保

Centos 7（Linux）環境下安裝PHP（編譯添加）相應動態擴展模塊so（以openssl.so為例）

linu *** bz2 restart lan openssl 發現不知道 tails https://blog.csdn.net/shinesun001/article/details/54312402 在centos 7環境下搭建好Lnmp環境之後，發現安裝的php

Springboot中Aspect實現切面（以記錄日誌為例）

前言今天我們來說說spring中的切面Aspect，這是Spring的一大優勢。面向切面程式設計往往讓我們的開發更加低耦合，也大大減少了程式碼量，同時呢讓我們更專注於業務模組的開發，把那些與業務無關的東西提取出去，便於後期的維護和迭代。好了，廢話少說！我們直接步入正題以系統日誌為例首先，我們先做一些準

17Spring事務管理的四種方式（以銀行轉賬為例）

寫這篇部落格之前我首先讀了《Spring in action》，之後在網上看了一些關於Spring事務管理的文章，感覺都沒有講全，這裡就將書上的和網上關於事務的知識總結一下，參考的文章如下： Spring事務機制詳解 Spring事務配置的五種方式 Spring中

flask和django在建立專案了和配置上的區別（以hello world為例）

對比flask和django建立專案： flask確實簡單： # 匯入庫 # 例項化一個app # 定義一個檢視函式 # 建立templates模板（這裡需要注意的是templates檔案的目錄需要和有(app.run())的檔案要是在同一級目錄，不然會報模板找不到） #啟動

windows下Libevent的多執行緒封裝（以檔案傳輸為例）

1、主執行緒負責監聽，子執行緒負責響應連線，同時每個子執行緒增加了連結串列來管理連線進來的客戶端，將上一節中的記憶體管理類也封裝進去。總體框架是不變的。 2、封裝類的實現： #pragma once #include "winsock2.h" #include "event2/liste

資料結構——圖的遍歷（以鄰接矩陣為例）

#include<stdio.h> #define N 20 #define TRUE 1 #define FALSE 0 int visited[N]; typedef struct /*佇列的定義*/ { int data[N]; i

回溯法解決N皇后問題（以四皇后為例）

回溯法解決N皇后問題（以四皇后為例）其他的N皇后問題以此類推。所謂4皇后問題就是求解如何在4×4的棋盤上無衝突的擺放4個皇后棋子。在國際象棋中，皇后的移動方式為橫豎交叉的，因此在任意一個皇后所在位置的水平、豎直、以及45度斜線上都不能出現皇后的棋子，例子要求程式設計求出符合要求的情

如何合理封裝你的輪子、飛機、大炮（以封裝OkHttp為例）

前言對於程式設計師來說，很多時候，我們都在造房子，從學會框架或者是學會構建整個專案之後，慢慢的我們就會覺得自己在做的事情是一種重複勞動，很多時候只不過是換個面孔而已。而更快的造房子，造好看的房子可能是進一步你想要做的。封裝可能是你要學會的第一步，它能幫你學會造出你需要的合適的工具，而這些工具能幫你

python爬蟲（以簡書為例）

相關推薦