python3爬取1000個百度百科頁面（一）

阿新 • • 發佈：2018-11-24

一、基本概念

爬蟲：一段自動抓取網際網路資訊的程式

二、簡單爬蟲架構

１、URL管理器：管理已經爬取和未曾爬取的url，防止重複、迴圈抓取

python中set可以直接去除重複元素

２、網頁下載器：將網頁下載到本地，urllib2,request,

３、網頁解析器：從網頁中提取有價值的資料的工具，可以解析網頁含有的url和資料，方式有正則表示式、html.parser、BeautifulSoup等

結構化解析：將網頁解析成DOM（Document Object Mode）樹

三、使用urllib下載網頁的三種方法

import urllib.request
import http.cookiejar

url = "http://www.baidu.com"

# 最簡潔的方法
print("第一種方法")
# 返回網頁內容
response1 = urllib.request.urlopen(url)
# getcode()返回狀態碼，返回200，則網頁下載成功，否則失敗，
print(response1.getcode())
# read()方法來獲取下載的內容
print(len(response1.read()))

print("第二種方法")
request = urllib.request.Request(url)
# 把爬蟲偽裝成Mozilla瀏覽器
request.add_header("user-agent","Mozilla/5.0")
response2 = urllib.request.urlopen(url)
print(response2.getcode())
print(response2.read())

# 新增特殊情景處理器，HTTPCookieProcessor、ProxyHandler等
print("第三種方法")
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 安裝這個opener
urllib.request.install_opener(opener) 
response3 = urllib.request.urlopen(url)
print(response3.getcode())
print(cj)
print(len(response3.read()))

注：

1、在python3中，在python3.3後urllib2已經不能再用，只能用urllib.request來代替，

2、在python3中，cookie要使用http.cookiejar，而不是cookie

四、BeautifuSoup模組解析

BeautifuSoup文件：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

1、將網頁下載成DOM樹

2、搜尋各種節點find_all(搜尋所有滿足條件的節點),find(只搜尋第一個節點)。引數都一樣

然後可以訪問節點的名稱、屬性、文字，也可以按照節點名稱、屬性、文字訪問，

# bs4模組 解析字串
from bs4 import BeautifulSoup
import re

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

# 建立BS物件
# html.parse是解析器
soup = BeautifulSoup(html_doc,'html.parser',from_encoding='utf-8')  
print("獲取所有的連結")

# 查詢所有標籤為'a'的節點
links = soup.find_all('a')
for link in links:
    print(link.name,link['href'],link.get_text())
    
print("獲取lacie的連結")
link_node = soup.find('a',href = "http://example.com/lacie")
print(link_node.name,link_node['href'],link_node.get_text())

# 正則匹配(模糊匹配)
print("正則匹配")
# 字母r,正則表示式出現反斜槓的話，我們只需要寫一個
link_node = soup.find('a',href = re.compile(r"ill"))     
print(link_node.name,link_node['href'],link_node.get_text())

# 獲取P段落文字
# class是python關鍵字，所以加下劃線
print("獲取P段落文字")
p_node = soup.find('p',class_ = "title") 
print(p_node.name,p_node.get_text())

python3爬取1000個百度百科頁面（一）

一、基本概念爬蟲：一段自動抓取網際網路資訊的程式二、簡單爬蟲架構１、URL管理器：管理已經爬取和未曾爬取的url，防止重複、迴圈抓取 &

python3爬取1000個百度百科頁面（二）

五、爬蟲流程六、程式碼結構：爬蟲排程器（入口）--url管理器--url下載器--解析器--輸出器 spider_main.py(入口) from baike_spider import url_manager

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

otto 提取數據 tps summary 簡介標題格式段落字典如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫，用於從HTML或XML中提取數據，通常用作於網頁的解析器 Beauti

Axure實現百度登入頁面（一）

本文主要實現了百度登入頁面的設計，其中最主要的是實現點選使用者名稱和密碼框時使邊框顏色發生變化（1）首先拖入一個矩形框，將邊框可見性全部去掉（2）將百度的圖片拖入，將“使用者名稱密碼登入”和“簡訊快捷登入”欄位設定好（3）拖入兩個矩形框，設定框的大小，之後再拖入兩個文字框，設定合適的大

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

android的百度地圖開發（一）

one rst dir 還要遠程服務存儲返回 src copy 1，註冊百度開發者賬號 2，申請key ,註意開發版SH和發布版的SH 獲取開發版SHA1: 輸入命令:keytool -list -v -keystore debug.keystore，回車輸入密鑰

Android 百度地圖開發（一）如何呼叫百度地圖介面和在專案中顯示百度地圖以及實現定位

二、下載百度地圖API庫然後新增到專案中即可。三、在專案清單AndroidMainifest.xml配置百度地圖API key和新增相關許可權四、在專案呼叫百度地圖專案功能，這篇文章就首先講講顯示地圖和定位的功能首先

scrapy爬取愛上租網站的房源資訊（一）

爬取的頁面如下：愛上租的租房頁面需要爬取該頁面下所有房間的基本資訊 scrapy框架的安裝和使用教程參考以下連結 http://www.scrapyd.cn/doc/178.html 首先在spiders目錄下新建一個house_spider.py，將上面爬

Android百度地圖開發（一）:地圖下載與配置

轉載請標明出處弄了不久，也算是入門百度地圖的開發了，基本的實現並不難，接下來說下基本步驟： 1：註冊百度賬號並進入官網：http://lbsyun.baidu.com/index.php?title=androidsdk，按提示完成基本驗證就可進入如下頁

我的百度實習生面試（一）

本人是中北大學軟體學院的大四學生，普通二本院校，雙非。但在自己的努力下，保研至天津大學電腦科學與技術學院。選擇繼續讀研，是我知道自己理論水平與實踐能力不協調，希望能夠提高一下理論水平，並且學歷高更有工作優勢；大四後半學期要

Android百度地圖開發（一）之初體驗

做關於位置或者定位的app的時候免不了使用地圖功能，本人最近由於專案的需求需要使用百度地圖的一些功能，所以這幾天研究了一下，現寫一下blog記錄一下，歡迎大家評論指正！一、申請AK（API Key）要想使用百度地圖sdk，就必須申請一個百度地圖的api key

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

爬蟲2 urllib3 爬取30張百度圖片

other utf tab class eight find thumb height spa import urllib3 import re # 下載百度首頁頁面的所有圖片 # 1. 找到目標數據 # page_url = ‘http://image.baidu

百度地圖POI數據爬取，突破百度地圖API爬取數目“400條“的限制11。

XML response city 代碼實現 append api json highlight inf 1.POI爬取方法說明 1.1AK申請　　登錄百度賬號，在百度地圖開發者平臺的API控制臺申請一個服務端的ak,主要用到的是Place API.檢校方式可設置成I

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

Android studio 百度地圖開發（2）地圖定位

gcj02 settings tick all adding ext tope wid erro Android studio 百度地圖開發（2）地圖定位 email:[email protected]/* */ 開發環境：win7 64位

百度編輯器（ueditor）@功能之獲取坐標

election set tor 設置 fse 隱藏 edit var 功能 //獲取百度編輯器的工具類 var domUtils = UE.dom.domUtils; //獲取編輯器的坐標

python3爬取1000個百度百科頁面（一）

相關推薦