python爬蟲-基礎入門-爬取整個網站《2》

阿新 • • 發佈：2018-11-04

python爬蟲-基礎入門-爬取整個網站《2》

描述：

　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。

python3 指令碼程式碼：

 1 #-*- coding: utf-8 -*-
 2 
 3 import urllib.request
 4 
 5 
 6 def baiduNet() :
 7 
 8     response = urllib.request.urlopen("http://www.baidu.com")
 9     netcontext = response.read().decode(" 
utf-8")
10 
11     file = open("baidutext.txt", "w", encoding='UTF-8')
12     file.write(netcontext)
13 
14 if __name__ == "__main__" :
15     baiduNet()

注意：

　　在python3中包urllib2歸入了urllib中，所以要匯入urllib.request，並且要把urllib2替換成urllib.request

urlopen方法

>> 獲取頁面資訊

>> 語法形式

　　urllib.request.urlopen(url, data=None, [timeout])

　　-> url : 需要開啟的網址

　　-> data : post需要提交的資料

　　-> timeout : 設定網站的訪問超市時間

>> 結果：

　　response = urllib.request.urlopen("http://www.baidu.com")

　　netcontext = response.read().decode("utf-8")

　　使用read()方法讀取響應物件中的文字，注意：得到文字資料格式為byte型別，需要decode()方法解碼，轉換成string型別。

--->>> 擴充套件，urlopen其它方法

方法	功能
read()，readline()，readlines()，fileno()，close()	對HHTTPResponse型別資料進行操作
info()	返回HTTPMessage物件，表示遠端伺服器返回的頭資訊
getcode()	返回Http狀態碼，如果是http請求，200請求成功狀態碼；404網址未找到
geturl()	返回請求的url

如有問題，歡迎糾正！！！

如有轉載，請標明源處：https://www.cnblogs.com/Charles-Yuan/p/9903242.html

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

python從爬蟲基礎到爬取網路小說例項

一.爬蟲基礎 1.1 requests類　　1.1.1 request的7個方法 requests.request() 例項化一個物件,擁有以下方法 requests.get(url, *args) requests.head() 頭資訊

一個月帶你入門Python爬蟲，輕鬆爬取大規模資料

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網

一個月入門Python爬蟲，輕鬆爬取大規模資料

這次作業選擇爬取的網站是噹噹網，噹噹有比較多的圖書資料，特別是五星圖書，包含了各個領域最受歡迎的圖書資訊，對於尋找有價值的圖書、分析好書的銷售情況具有一定的價值。最終爬取的資料如下，總共10000+行資料：我想爬取的資料是各分類（小說、中小學教輔、文學、成功/勵志……）下面的五星圖書資訊（書名、評論數、作者、

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

python爬蟲-基礎入門-python爬蟲突破封鎖

python爬蟲-基礎入門-python爬蟲突破封鎖 >> 相關概念　　>> request概念：是從客戶端向伺服器發出請求，包括使用者提交的資訊及客戶端的一些資訊。客戶端可通過HTML表單或在網頁地址後面提供引數的方法提交資料。讓後通過request物件的相關方

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

爬蟲基礎-1-爬取小說資源

小生部落格：http://xsboke.blog.51cto.com 小生 Q Q：1770058260 -------謝謝您的參考，如有疑問，歡迎交流使用BeautifulSoup爬取網站資源注:此文僅供學習參考,如果該網站平凡文學負責人有異議

Python爬蟲例項：爬取B站《工作細胞》短評——非同步載入資訊的爬取

《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標籤中的就是短評資訊，一共20條。一般我們載入大量資料的時候，都會做分頁，但是這個頁面沒有，只有一個滾動條。隨著滾動條往下拉，資訊自動載入了，如下圖，變40

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》

相關推薦