python抓取網頁資料處理後視覺化

阿新 • • 發佈：2018-12-06

抓取文章的連結，訪問量儲存到本地

 1 #coding=utf-8
 2 import requests as req
 3 import re
 4 import urllib
 5 from bs4 import BeautifulSoup
 6 import sys
 7 import codecs
 8 import time
 9 
10     
11 r=req.get('https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000',
12          headers={'User-Agent 
': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'})
13 content=r.text
14 #print(content)
15 soup=BeautifulSoup(content,'html.parser')
16 
17 #下面2行內容解決UnicodeEncodeError: 'ascii' codec can't encode characters in position 63-64問題,但是加了後print就打印不出來了，需要查原因 

18 reload(sys)
19 sys.setdefaultencoding('utf-8')
20 
21 i=0
22 for tag in soup.find_all(re.compile(r'^a{1}'),{'class':'x-wiki-index-item'}):
23     i=i+1
24     if i%3==0:
25         time.sleep(30)
26     name=tag.get_text()
27     href='https://www.liaoxuefeng.com'+tag['href']
28     req2=req.get(href,headers={' 
User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'})
29     time.sleep(3)
30     soup2=BeautifulSoup(req2.text,'html.parser')
31     count=soup2.find_all('div',{'class':'x-wiki-info'})
32     try:
33         co=count[0].find('span').get_text()
34         co=co[7:]
35     except IndexError as e:
36         co='0'
37     with open('E:/sg_articles.xlsx', 'a+') as f:
38         f.write(codecs.BOM_UTF8)#解決寫入csv後亂碼問題
39         f.write(name+','+href+','+co+'\n')
40 '''
41 睡眠是因為網頁訪問過多就會報503 Service Unavailable for Bot網站超過了iis限制造成的由於2003的作業系統在提示IIS過多時並非像2000系統提示“連結人數過多”
42 http://www.51testing.com/html/53/15150753-4455790.html --資料視覺化
43 http://www.cnblogs.com/xxoome/p/5880693.html --python引入模組時import與from ... import的區別
44 https://www.cnblogs.com/amou/p/9184614.html --講解幾種爬取網頁的匹配方式
45 https://www.cnblogs.com/yinheyi/p/6043571.html --python基本語法
46 '''

上面程式碼的思路：先獲取主網頁，再遍歷主網頁上的文章連結並請求這些連結以進入子網頁，從而獲得子網頁中span標籤儲存的訪問量。

下面開啟本地檔案，pandas進行資料分析，然後pyecharts實現圖形化

 1 #coding=utf-8
 2 from pyecharts import Bar
 3 import pandas as pd
 4 
 5 p=pd.read_excel('E:\sg_articles.xls',names=["title","href","count"])
 6 a=p.sort_values(by='count',ascending=False)[0:3]
 7 title=a['title']
 8 count=a['count']
 9 bar=Bar("點選量TOP3", title_pos='center', title_top='18', width=800, height=400)
10 bar.add("", title, count, is_convert=True, xaxis_min=10, yaxis_rotate=30, yaxis_label_textsize=10, is_yaxis_boundarygap=True, yaxis_interval=0,
11         is_label_show=True, is_legend_show=False, label_pos='right',is_yaxis_inverse=True, is_splitline_show=False)
12 bar.render("E:\點選量TOP3.html")

最後的結果

同時還有很多疑問，需要懂的朋友幫忙解答：

1.第一段程式碼中儲存的xlsx格式，實際儲存後開啟是提示有損壞的，使用xml開啟則就沒有問題，另存為xls格式後開啟也沒有問題

2.訪問量過多會報錯，我就利用了sleep,但實際上訪問量間斷性的讀取到了值，有的為什麼讀不到值了？

3.利用sort_values對count列進行排序取前3，這個會自動排除掉excel格式的第一行，不知道是為什麼

感覺後面我還需要強化1）pandas資料處理的方法，比如分組排序等

2）正則表示式的提取

3）pyecharts的圖形繪製

4）在遇到網頁有反爬情況下的虛擬ip設定等

記錄我的python學習之路，大家一起努力喲~~

python抓取網頁資料處理後視覺化

抓取文章的連結，訪問量儲存到本地 1 #coding=utf-8 2 import requests as req 3 import re 4 import urllib 5 from bs4 import BeautifulSoup 6 import sys 7 import code

Python抓取網頁資料的終極辦法

假設你在網上搜索某個專案所需的原始資料，但壞訊息是資料存在於網頁中，並且沒有可用於獲取原始資料的API。所以現在你必須浪費30分鐘寫指令碼來獲取資料（最後花費 2小時）。這不難但是很浪費時間。 Pandas庫有一種內建的方法，可以從名為re

Python抓取網頁動態資料——selenium webdriver的使用

文章目的當我們使用Python爬取網頁資料時，往往用的是urllib模組，通過呼叫urllib模組的urlopen(url)方法返回網頁物件，並使用read()方法獲得url的html內容，然後使用BeautifulSoup抓取某個標籤內容，結合正則表示式過濾。但是，用u

python的BeautifulSoup實現抓取網頁資料

1環境：pycharm，python3.4 2.原始碼解析 import requests import re from bs4 import BeautifulSoup #通過requests.get獲取整個網頁的資料 def getHtmlText(url):

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

最近剛學習Python，做了個簡單的爬蟲，作為一個簡單的demo希望幫助和我一樣的初學者程式碼使用python2.7做的爬蟲抓取51job上面的職位名，公司名，薪資，釋出時間等等直接上程式碼，程式碼中註釋還算比較清楚，沒有安裝mysql需要遮蔽掉相關程式碼：#!/u

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

記錄一次python抓取網頁下載視訊

最近看了電影狂暴巨獸，連結是那種不固定的http連結，有可能隨時就打不開了，然後想下載下來留著，但是網頁不提供下載，所以就自己抓取了相關視訊，然後下載。廢話不多說，直接上乾貨。用fiddle抓取主要的視訊。下圖就是抓取時候產生的相關資訊。逐條進行分析，然後找到電影的包的地址。 http

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

Python抓取股票資料，如何用python程式設計賺取第一桶金？

Python開發的一個快速,高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。 Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如BaseSpid

Python爬取網頁資料並匯入表格

import requests import time import random import socket import http.client from bs4 import BeautifulSoup import csv def getContent(url

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

使用python抓取App資料

App中的資料可以用網路爬蟲抓取麼答案是完全肯定的：凡是可以看到的APP資料都可以抓取。下面我就介紹下自己的學習經驗和一些方法吧本篇適合有過web爬蟲基礎的程式猿看沒有的的話學的可能會吃力一些 App介面爬取資料過程使用抓包工具手機使

python抓取動態資料 A股上市公司基本資訊

1.背景之前寫的抓取A股所有上市公司資訊的小程式在上交所網站改版後，需要同步修改 pyton2.7.9 2.分析過程以抓取宇通客車【600066】資訊為例紅框中的內容是需要抓取的資訊，檢視網頁原始碼可以看到公司資訊並沒有直接寫到html中，使用chrome “

Python 抓取網頁學習系列之一（網頁編碼格式

第一步：你需要知道你所抓取的網頁編碼格式，方法：右鍵檢視網頁編碼，ctrl +F ，搜尋：charset會看到：<meta http-equiv="Content-Type" content="text/html; charset=gbk" />，OK確定是gb

【例項】python抓取網頁

>>> __author__ = 'Administrator'>>> import urllib.request>>> import re>>> from bs4 import BeautifulSou

Python抓取網頁&批量下載檔案方法初探（正則表示式+BeautifulSoup）

最近兩週都在學習Python抓取網頁方法，任務是批量下載網站上的檔案。對於一個剛剛入門python的人來說，在很多細節上都有需要注意的地方，以下就分享一下我在初學python過程中遇到的問題及解決方法。一、用Python抓取網頁基本方法： import urllib

Java抓取網頁資料（原網頁+Javascript返回資料）

轉載請註明出處！有時候由於種種原因，我們需要採集某個網站的資料，但由於不同網站對資料的顯示方式略有不同！本文就用Java給大家演示如何抓取網站的資料：（1）抓取原網頁資料；（2）抓取網頁Jav

抓取網頁資料 A標籤的HREF 值

在工作中，我們有時候需要從特定的網頁中抓取我們想要的資料，由於工作的需要，我給大家推薦一個專門的抓取類：Winista.HtmlParser.dll 當我們需要從有規律的網頁中提取資料時，如table tr td; ul li之類的，如果用正則表示式，或者做字串的處理，會非常

Python抓取網頁並儲存為PDF

1、開發環境搭建（1）Python2.7.13的安裝：參考《廖雪峰老師的網站》（2）Python包管理器pip的安裝：參考《pip安裝文件說明》因為基於版本2.7.13，因為2.7.9以上已經自帶pip，所以不需要單獨安裝，但是需要我們更新。上面的說

node.js 小爬蟲抓取網頁資料（2）

node.js 小爬蟲抓取網頁資料在原來的基礎上，採用了promise的模組，使其可以一次性多頁面的爬取網頁資料。 var http = require('http') var Promise = require('promise') var cheerio = re

python抓取網頁資料處理後視覺化

相關推薦