python3定向爬取網頁內容
import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return '' def fillUnivList(ulist, html): # 解析網頁內容,並提取相關資訊 soup = BeautifulSoup(html, 'html.parser') for tr in soup.find('tbody').children: if isinstance(tr, bs4.element.Tag): tds = tr('td') ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string]) def printUnivList(ulist, num): tplt = '{0:^10}\t{1:{3}^10}\t{2:^10}\t{4:^8}' # 輸出格式 print(tplt.format('排名','學校名稱','地址',chr(12288), '總分')) for i in range(num): u = ulist[i] print(tplt.format(u[0], u[1], u[2], chr(12288), u[3])) def main(): uinfo = [] url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html' #爬取的網頁 html = getHTMLText(url) fillUnivList(uinfo, html) printUnivList(uinfo, 20) main()
相關推薦
python3定向爬取網頁內容
import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra
PHP爬取網頁內容
1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("
利用BeautifulSoup爬取網頁內容
利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝,不過也可以直接用python的ide。 基礎操作 : ① 使用之前需要先從bs4中匯入包:from
Python之簡單爬取網頁內容
爬去網頁通用流程 這樣看著雖然很麻煩,但是爬取網頁都離不開這四個步驟,以後如果爬取更復雜的網頁內容,只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):
Python爬蟲:selenium掛shadowsocks代理爬取網頁內容
selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import
python3爬蟲爬取網頁圖片簡單示例
本人也是剛剛開始學習python的爬蟲技術,然後本來想在網上找點教程來看看,誰知道一搜索,大部分的都是用python2來寫的,新手嘛,一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲,爬蟲一下貼吧的圖片吧。話不多說,我們開始。 首先簡單來說說一下知識。 一
JAVA爬取網頁內容
之前的文章沒有整理好,這邊重新標註一下,有需要可以到我的個人部落格看完整的三篇文章。在此之前,大家先了解一個Jsoup,一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作:需要去檢視一下要爬的網頁的結構,對自己要爬的資料的標籤要熟悉。操作:在頁面上按F
爬蟲小白——利用pycharm爬取網頁內容
概述:這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享,主要通過對豆瓣音樂top250的歌名、作者(專輯)的爬取來分析爬蟲原理什麼是爬蟲?我們要學會爬蟲,首先要知道什麼是爬蟲。網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者
PHP加JavaScript爬取網頁內容,超實用簡易教程
php+js爬取網頁內容—–先看下效果 如何做到的呢? 我們一直以為只有Python才能爬取網頁內容,那是因為Python本身集合很多類庫用來爬取網頁很方便,但是我們使用PHP+js的方法一樣很方便,一樣可以拿到我們想要的網頁內容,而且也不用很繁瑣。
使用HTTPURLConnection模擬登陸,爬取網頁內容
如果你需要爬取某些網頁的內容,但這些網站需要登入,那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了,任意登入頁面都是向伺服器傳送請求,如果我們能夠模擬向伺服器傳送請求,那麼自然登入也就不在話下,通過Fiddler抓取我們需要的一些資訊,很輕鬆的就能模擬
如何使用Jsoup爬取網頁內容
前言: 這是一篇遲到很久的文章了,人真的是越來越懶,前一陣用jsoup實現了一個功能,個人覺得和selenium的webdriver原理類似,所以今天正好有時間,就又來更新分享了。 實現場景: 爬取部落格園https://www.cnblogs.com/longronglang,文章列表中標題、連結、釋出時間
python+selenium+PhantomJS爬取網頁動態加載內容
use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源,但是設計javascript渲染的頁面卻不能抓取,此時,我們使用web自動化測試化工具Selen
[實戰演練]python3使用requests模塊爬取頁面內容
取圖 簡書 服務器 二進制 tty ret index 內容亂碼 20px 本文摘要: 1.安裝pip 2.安裝requests模塊 3.安裝beautifulsoup4 4.requests模塊淺析 + 發送請求 + 傳遞URL參數 + 響應內容
Python 爬取網頁中JavaScript動態添加的內容(二)
python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install seleniumphantomjs(是
python3 爬取網頁表格例子
很簡潔明瞭的爬蟲例子,分享給大家
Python3+Selenium爬取動態網頁資料
背景: 有時候想獲取網頁的資訊,然後下載裡面的圖片資料等等 遇到的問題: 有時一些網頁是動態的,一些內容是通過js非同步拉取,甚至拉取時間是懶載入的,例如滾動到元素位置的時候才載入 解決方案: 這個時候就需要Selenium神器了 Selenium 是什麼?一句話
Python 爬取網頁中JavaScript動態新增的內容(二)
使用 selenium + phantomjs 實現 1、準備環境 selenium(一個用於web應用程測試的工具)安裝:pip install selenium phantomjs(是一種無介面的瀏覽器,用於完成網頁的渲染)下載:http://phantomjs.or
Python 爬取網頁中JavaScript動態新增的內容(一)
當我們進行網頁爬蟲時,我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼,我們必須經過渲染處理才能獲得原始資料。此時,如果我們仍採用常規方法從中抓取資料,那麼我們將一無所獲。那麼,通過Web kit可以簡單解決這個
python爬取網頁中文亂碼。解決方案。python3
``` r = requests.get('http://www.xxxxxxxxxxxxxxx.html') print(r.text) ``` 初次試寫python爬蟲爬取網頁小說, 在第一個網站的時候沒問題 第二個網站竟然中文亂碼 很是尷尬 多方求助
python3 爬取網頁的異常處理
有時候python爬取的網頁會出現異常,我們需要新增異常處理 我們主要說明一下URLError和HTTPError URLError 首先解釋下URLError可能產生的原因: 網路無連線,即