利用BeautifulSoup爬取網頁內容

阿新 • • 發佈：2018-12-13

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree

要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。

基礎操作 :

①

使用之前需要先從bs4中匯入包：from bs4 import BeautifulSoup

②

使用的程式碼：soup = BeautifulSoup(res.text, 'html.parser')

括號中的第一個引數中的res是源網頁，res.text是源網頁的html，第二個引數'html.parser'是使用html的剖析器。、

③

可以使用select函式

找出所有含有特定標籤的HTML元素，例如：soup.select('h1')可以找出所有含有h1標籤得到元素

它會返回一個list，這個list包含所有含'h1'的元素。

程式碼：

soup = BeautifulSoup(res.text, 'html.parser')
h1 = soup.select('h1')
for h in h1:
    print(h)
#len = len(h1)
#for i in range(0,len):
#    print(h1[i])
#

④

可以使用select函式找出所有含有特定CSS屬性的元素，例如：

soup.select('#title')可以找出所有id

為title的元素（格式為"#加上id名稱"）

soup.select('#link')可以找出所有class為title的元素（格式為"#加上class名稱"）

select返回的元素都是按照tag進行分類的，所以可以獲取到tag的值：

程式碼：

a = '<a href = "#" abc = 456 def = 123> i am a link </a>'
soup = BeautifulSoup(a, 'html.parser')
print(soup.select('a')[0]['href'])#輸出"#"
print(soup.select('a')[0]['abc'])#輸出"456"
print(soup.select('a')[0]['def'])#輸出"123"

實戰（爬取新浪新聞資訊）：

#匯入包
import requests
from bs4 import BeautifulSoup
#爬取特定網頁
res = requests.get("https://news.sina.com.cn/china/")
#轉化文字編碼
res.encoding = 'utf-8'
#存進BeautifulSoup元素中
soup = BeautifulSoup(res.text, 'html.parser')
#print(soup)

for news in soup.select('.news-1'):#爬取並遍歷所有class為"news_1”的元素
    li = news.select('li')#選取所有含有'li'特定標籤的元素,並存進li這個list中去
    num = len(li)#獲取到元素的個數
    if num > 0:
        for i in range(0, num):
            print(li[i].text)

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

利用Beautifulsoup爬取網頁圖片

BeautifulsoupBeautifulsop是一個python模組，該模組用於接收一個HTML或XML字元，然後將其進行格式化，之後便可以使用他提供的方式快速查詢指定的元素（如圖片,文字等），從而使得在html或xml中查詢指定元素比起用正則表示式更簡單。所用庫：for

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

requests與BeautifulSoup爬取網頁圖片

requests+BeautifulSoup爬取網頁圖片最近一直抽時間在看requests+BeautifulSoup爬取網頁內容這一塊的內容，所以，打算把自己看的總結一下，分享也是一種學醫，給自己做做筆記。 1.首先，我們看一下requests庫 requests

PHP爬取網頁內容

1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

JAVA爬取網頁內容

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。操作：在頁面上按F

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

使用BeautifulSoup爬取github內容示例

#!/usr/bin/env python import urllib.request import re from bs4 import BeautifulSoup def getdata(url="http://github.com/racaljk/hosts/blob

利用python爬取網頁圖片

學習python爬取網頁圖片的時候，可以通過這個工具去批量下載你想要的圖片開始正題：我從尤物網去爬取我喜歡的女神的寫真照，我們這裡主要用到的就兩個模組 re和urllib模組，有的時候可能會用

PHP加JavaScript爬取網頁內容，超實用簡易教程

php+js爬取網頁內容—–先看下效果如何做到的呢？我們一直以為只有Python才能爬取網頁內容，那是因為Python本身集合很多類庫用來爬取網頁很方便，但是我們使用PHP+js的方法一樣很方便，一樣可以拿到我們想要的網頁內容，而且也不用很繁瑣。

【Python】BeautifulSoup爬取新聞內容

本篇博文是爬取網站新聞的簡單例子，如果要深入瞭解爬蟲，請移步，不要因為這篇博文耽誤你寶貴時間。網站原始碼如下，我們目標是爬取<p>標籤下的新聞內容：程式碼如下：from urllib.request import urlopen from bs4 import B

實戰利用Xpath爬取網頁資料

#coding=utf-8 #step1 匯入模組 import re import requests from lxml import etree #抓取網頁原始碼 url = 'http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb4931

使用HTTPURLConnection模擬登陸，爬取網頁內容

如果你需要爬取某些網頁的內容，但這些網站需要登入，那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了，任意登入頁面都是向伺服器傳送請求，如果我們能夠模擬向伺服器傳送請求，那麼自然登入也就不在話下，通過Fiddler抓取我們需要的一些資訊，很輕鬆的就能模擬

利用BeautifulSoup爬取我愛我家的租房資料

因為之前對BeautifulSoup一直不是很熟悉，剛好身邊的朋友同事在找房子，就想著能不能自己寫個爬蟲爬一下資料，因此就寫了這個爬蟲。基本都是邊看書邊寫的，不過也沒什麼好講的。直接粘程式碼了。

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中 1、具體要求獲取牛客網->題庫->線上程式設計->劍指Offer網頁，獲取表格中的全部題目，儲存到本地excel中 2、技術要求利用Selenium+Python獲取網頁，操

利用BeautifulSoup爬取網頁內容

相關推薦