Python網路爬蟲學習筆記——第一個爬蟲程式
執行環境
語言
- Python3
第三方庫
pip install reqeusts
pip install BeautifulSoup4
pip install jupyter
線上編輯器
安裝 jupyter
模組後,在cmd視窗中執行命令jupyter notebook
就會自動在瀏覽器中開啟一個線上編輯器。如下:
開啟右上角的 new 列表,選中python3,就會開啟編輯介面,就可以在裡面編輯Python程式碼啦。
第一個爬蟲
import requestes
# 爬取頁面的路徑
url = 'https://www.sina.com.cn/'
# 傳送get請求並得到相應
res = requests.get(url)
# 設定頁面編碼為utf-8 否則得到的頁面會出現亂碼
res.encoding = 'utf-8'
# 輸出頁面內容
print(res.text)
編寫了上面程式碼後再按頁面熱鍵 ctrl+enter 執行程式碼就能得到新浪網頁的內容了。
這樣就是一個簡單的爬取新浪網頁的爬蟲了。當然,網路爬蟲不可能只是那麼簡單,持續學習中。!!!
相關推薦
Python網路爬蟲學習筆記——第一個爬蟲程式
執行環境 語言 Python3 第三方庫 pip install reqeusts pip install BeautifulSoup4 pip install jupyter 線上編輯器 安裝 jupyter 模組後,在cmd視窗中執行命令jupyte
python爬蟲學習筆記一:爬蟲學習概覽與Requests庫的安裝與使用
python網路爬蟲與資訊提取 學習目錄: the website is the API Requests:自動爬取HTML頁面自動網路請求提交 robots.txt:網路爬蟲排除標準 Beautiful Soup:解析HTML頁面 正則表示式詳解,提取頁面關鍵資訊Re
python之Scrapy框架的第一個爬蟲
執行: D:\pycodes\python123demo>scrapy crawl demo scrapy crawl demo 學習筆記: 程式碼: D:\pycodes>scrapy startproject python123demo Ne
C#學習筆記-第一個程式
第一個程式 using System; namespace MyApplication { class HelloWorld { static void Main(
opengl學習筆記-第一個視窗
/* #include<glad\glad.h>一定要放在GLEW之前 */ #include<glad\glad.h> #include<GLFW\glfw3.h> #include<iostream>
【Python】搭建你的第一個簡單的神經網路_理論篇_NN&DL學習筆記(一)
前言 本文為《Neural Network and Deep Learning》學習筆記(一),可以轉載但請標明原文地址。 本人剛剛入門、筆記簡陋不足、多有謬誤,而原書精妙易懂、不長篇幅常有柳暗花明之處,故推薦閱讀原書。 《Neural Network and Deep Learning
【Python】搭建你的第一個簡單的神經網路_實踐篇_NN&DL學習筆記(三)
前言 本文為《Neural Network and Deep Learning》學習筆記(三),可以轉載但請標明原文地址。 本人剛剛入門、筆記簡陋不足、多有謬誤,而原書精妙易懂、不長篇幅常有柳暗花明之處,故推薦閱讀原書。 《Neural Network and Deep Learning
【Python】搭建你的第一個簡單的神經網路_準備篇_NN&DL學習筆記(二)
前言 本文為《Neural Network and Deep Learning》學習筆記(二),可以轉載但請標明原文地址。 本人剛剛入門、筆記簡陋不足、多有謬誤,而原書精妙易懂、不長篇幅常有柳暗花明之處,故推薦閱讀原書。 《Neural Network and Deep Learning
python第一個爬蟲的例子抓取數據到mysql,實測有數據
入mysql數據庫 nor gecko /usr png 支持 web local webkit python3.5 先安裝庫或者擴展 1 requests第三方擴展庫 pip3 install requests 2 pymysql pip3 install pym
Python爬蟲學習==>第一章:Python3+Pip環境配置
sof 環境 pts window https 有時 naconda 步驟 管家 前置操作 軟件名:anaconda 版本:Anaconda3-5.0.1-Windows-x86_64清華鏡像 下載鏈接:https://mirrors.tuna.tsinghua.ed
python第一個爬蟲腳本
python -c get makedirs www 腳本 data close htm import urllib.requestimport reimport os url = "http://www.budejie.com/" # 爬的地址 def get_page
python爬蟲學習:第一爬_快眼看書排行榜
font n) 對象 file 叠代器 get quest client 有一個 1 import json 2 import re 3 from urllib.request import urlopen # urllib用法:https://www.jb5
Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)
依次 返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼,每個宮格之間會有一條 指示連線,指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格,才可以完成驗證,
Python爬蟲學習筆記之模擬登陸並爬去GitHub
過程 eight res 開發者工具 @value clas 之前 自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程,需要探究後臺的登陸請求是怎樣發送的,登陸之後又有怎樣的
Python爬蟲學習筆記(一)——urllib庫的使用
scheme param https ade 網站 dmgr nor 分享圖片 out 前言 我買了崔慶才的《Python3網絡爬蟲開發實戰》,趁著短學期,準備系統地學習下網絡爬蟲。在學習這本書的同時,通過博客摘錄並總結知識點,同時也督促自己每日學習。本書第一章是開發環境的
Python爬蟲學習筆記(二)——requests庫的使用
pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記 準備工作 requests庫不是python自帶的庫,可以用pip安裝。在使用時導入requests即可。 基本用法 GET請求 r = requests.get(url) print(r.tex
Python爬蟲學習筆記(三)——正則表達式
斜杠 這一 seh 爬蟲 class 學習 常用方法 部分 介紹 介紹 正則表達式是一種處理字符串的強大工具,能實現字符串的檢索、替換、匹配驗證等。在爬蟲中,正則表達式主要用於從HTML裏提取所需要的信息 常用的匹配規則 模式 描述 \w 匹配字母、數字及下劃
Python爬蟲學習筆記(七)——智高考數據爬取
pid items bubuko strong eai res har href name 介紹 智高考是一個高考誌願網站,也是基於Ajax的。高中的時候我在wyz大神的幫忙下,嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲,幾乎都是靠大神帶飛,因此今天再次嘗試
【Python爬蟲學習筆記2】urllib庫的基本使用
代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫,通過它可以模擬瀏覽器的行為,向指定的服務器發送一個請求,並保存服務器返回的數據。 urlopen函數 函數原型:urlopen(
【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解
參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置,本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念 為更好