python ：通過爬蟲爬取資料（1）

阿新 • • 發佈：2018-11-17

(1)通過url爬取網頁資料

import urllib.request
 #指定url
 url ="https://www.baidu.com" 
 #向伺服器發起請求，返回響應的資料，通過infor接收
 infor = urllib.request.urlopen(url)
  #獲取接收的資料，把其儲存為Html檔案
 data = infor.read().decode("utf-8)  
 '''
 讀取infor接收的資料的三種方法
 1.data = infor.readline()    逐行讀取
 2.data = inor.readlines()   讀取所有文字，賦值給列表變數
 3.data = infor.read().decode("utf-8)  讀取所有文字，賦值給字串變數
 '''
 path =r"D:\pythonItem\爬蟲與Json\file.html"
 with open(path,"wb") as f ：
	f.write（infor)

#直接把資料讀取到檔案中的方法，容易帶來快取

import urllib.request
url ="https://www.baidu.com"
path =r"D:\pythonItem\爬蟲與Json\file.html"
urllib.request.urlretrieve(url,path)
urllib.request.urlcleanup()  #清除快取

#返回的資料屬性

infor.info()  返回當前環境的所有資訊
infor.getcode()     返回狀態碼
if infor.getcode() == 200 or infor.getcode() == 304 :
	print("請求成功")
urllib.request.unquote(url)  編碼url
url.request.quote(url) 解碼url

#反爬蟲：模擬瀏覽器

import urllib.request
url ="https://www.baidu.com"
#偽裝瀏覽器
#設定請求頭
'''
User-Agent:使用者瀏覽器的基礎資訊
Content-Type:定義網路檔案的型別和網頁的編碼
X-Requested-With:伺服器判斷請求型別
Accept:告知客戶端可以處理的內型
'''
Headers ={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
   " X-Requested-With": "XMLHttpRequest"
    "Accept": "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01"
    "Content-Type":" baiduApp/json; v6.27.2.14; charset=UTF-8"
}
#設定請求體
req = req =urllib.request.Request(url,headers=Headers)
response =  urllib.request.urlopen(url) 
data = response.read().decode("utf-8")
print(data)

#為防止多次請求被封ip，需要設定隨機請求

#獲取隨機請求頭
import urllib.request
import random
user_agent_list=[
		"User-Agent_One"
		"User-Agent_Two"
		"User-Agent_Three"
				……
]
#隨機獲取列表中的User-Agent
random_agent =random.choice(user_agent_list)
req = urllib.request.Request(url)
#向請求提新增User-Agent
req.add_header("User-Agent",random_agent)
response = urllib.urlopen(req)
print(response.read().decode("utf-8"))

#如果網頁長時間未響應，那麼則要進行超時處理

timeout :爬蟲響應時間
import  urllib.request
for i in range(1,100) :
	try:
		reesponse = urllib.request.urlopen("https://www.baidu.com",timeout = 0.5)
		print(response.read().desode("utf-8"))
	except:
		print("請求超時，請求下一個爬蟲"）

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料

登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；程式碼，依次向下找節點；def getInfo(html): soup = BeautifulSo

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

CA external 令行 sta 項目程序 str 輸入 tar 前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。一、代碼實現 1、修改Scrapy項目中的ite

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

python爬取小說（三）資料儲存

由於時間關係，我們先把每章的內容儲存到資料庫。需要用到sqlite，接著上一篇，在原基礎上修改程式碼如下： # -*- coding: utf-8 -*- import urllib.request import bs4 import re imp

python使用requests爬取資料（酷狗hot500案例）（講解細緻）

關於使用requests爬取酷狗hot500的案例 1. 案例環境： python版本：python3.x;

python爬取資料（豆瓣上TOP250的電影資訊）初學者必看！！！

python爬取豆瓣上TOP250電影初學python爬蟲。我這裡用的 lxml提取xpath的方式來爬取資料 lxml爬取的速度會比bs4快，所以這裡我選用的lxml 話不多上，趕緊上教程。爬取的思路： 1.獲取網頁解析（有些網頁需要代理） 2.解析完成之

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

Python教程 - 之爬蟲爬取線上教程轉成pdf

Python教程 - 之爬蟲爬取線上教程轉成pdf 作為一名程式設計師，經常要搜一些教程，有的教程是線上的，不提供離線版本，這就有些侷限了。那麼同樣作為一名程式設計師，遇到問題就應該解決它，今天就來將線上教程儲存為PDF以供查閱。 1、網站介紹 2、準備工作

python爬取網頁（簡易）

爬取的照片資訊 from urllib import request import re def getResponse(url): url_request = request.Request(url) url_response = request.u

爬取大規模資料（1）

本文以58同城網站為例子大概流程如下： 1、找到58類目頁的所有類目連結 2、設定資料庫（這裡使用MongoDB） 3、編寫兩個爬蟲分別爬取解析該類目下的所有商品連結、詳情頁資訊並存入資料庫中 4、首先獲取所有類目的連結： # channel_extract.py fr

python requests做爬蟲爬取oxford詞典單詞音標

import requests import re def phonetic_spelling(word): word=word.replace(" ","_") phoneticSpelling="" #ur

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

爬蟲爬取資料時各種中文亂碼問題

學爬蟲有一段時間了，期間總是覺得內容編碼會傻傻分不清楚，尤其是直接網頁拿資料的時候，遇見中文有時候特別麻煩，看大神介紹的東西太多，只記下了處理方式，僅供參考，不對地方歡迎大家指正~~ 一般請求返回內容編碼方式步驟如下： 1、檢視資料來源網頁的編碼形式--爬取資料所在網頁原始碼就有寫： 2

python爬餓了麼外賣資料（1）

#爬餓了麼外賣資料--區域集合 #https://mainsite-restapi.ele.me/v2/pois? #extras%5B%5D=count&geohash=wx4g0bmjetr7&keyword=%E6%9C%9D%E9%98%B3&limit=20&typ

Python 3.6 爬蟲爬取豆瓣《孤芳不自賞》短評

使用Python 3.6 進行對《孤芳不自賞》這部作品的短評爬取點選這個連線我們可以進入該作品短評頁面這裡還沒有登入豆瓣。登入豆瓣之後，才能爬取更多的頁面。因此我們選擇登入，最快捷省時的辦法，就是在登入時使用F12進行檢視cookies。

python ：通過爬蟲爬取資料（1）

相關推薦