【python 爬蟲】python中url連結編碼處理方法
一、問題描述
有些網址,會把中文編碼成gb2312格式,例如百度知道,美容這一詞,網址上面會編碼成:
%C3%C0%C8%DD
那麼如何生成這種編碼呢?
二、解決方法
1、把要編碼的文字encode成所需格式
2、利用urllib 庫的quote方法編碼
# -*- coding:utf-8*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
key=str("美容").decode('utf-8').encode('gb2312')
import urllib
m1=urllib.quote(key)
print m1
D:\Python27\python.exe F:/PycharmProjects/url編碼.py
%C3%C0%C8%DD
Process finished with exit code 0
相關推薦
【python 爬蟲】python中url連結編碼處理方法
一、問題描述 有些網址,會把中文編碼成gb2312格式,例如百度知道,美容這一詞,網址上面會編碼成: %C3%C0%C8%DD 那麼如何生成這種編碼呢? 二、解決方法 1、把要編碼的文字enc
【Python爬蟲】Python安裝
pip 是一個現代的,通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。 IDLE 是一個Python Shell,一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的,不過
【python爬蟲】BeautifulSoup庫的選擇器select()方法
一般使用BeautififulSoup解析得到的Soup文件可以使用find_all()、find()、select() 方法定位所需要的元素。find_all()是獲得list列表、find()
【網路爬蟲】:Python:url基礎:urllib
文章目錄 1 簡單介紹 2 相關區別 3 例項講解 (1)urllib (2)ulrlib2 (3)httplib (4)requests 4 專案實戰 1 簡單介紹
【Python爬蟲】使用urllib.request下載已知連結的網路資源
如果有這樣一個場景,我們的EXCEL某一列記錄了好多(圖片、視訊、音訊)連結A,另外一列記錄了連結名稱B,現在我們想要自動下載這些連結的檔案,我們應該怎樣處理? 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況(.jpg,.mp4,mp3等)用urllib.req
【python爬蟲】抓取連結網頁內的文字 (第一步 定位超連結文字)
第一步:匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------
【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中
爬取前程無憂職位資訊 此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.(ps:首先你要安裝好模組openpyxl否則就點選右上角離開,百度搜素安裝.) 選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息,想想就順手寫了一個為方便尋找滿足自己要
【Python爬蟲】 輕鬆幾步 將 scrapy 框架 獲取得到的 資料 儲存到 MySQL 資料庫中
以下操作 是在 一個 完整的 scrapy 專案中 新增 程式碼: 中介軟體 和 spiders 中的程式碼 都不需要修改 只需要 做下面兩件事就可以將資料儲存到資料庫了,不過在寫程式碼之前 我們要先: 在終端 執行命令:net star
【python爬蟲】讀寫、追加到excel檔案中
爬取糗事百科熱門 安裝 讀寫excel 依賴 pip install xlwt 安裝 追加excel檔案內容 依賴 pip install xlutils 安裝 lxml import csv import requests fr
【學習筆記】python爬取百度真實url
python 今天跑個腳本需要一堆測試的url,,,挨個找復制粘貼肯定不是程序員的風格,so,還是寫個腳本吧。 環境:python2.7 編輯器:sublime text 3 一、分析一下 首先非常感謝百度大佬的url分類非常整齊,都在一個
【Python學習】Python中的數據類型精度問題
類型 一次 /usr logs int 第一次 pytho 整數 問題 Python真的很神奇。。。神奇到沒有直接的數據類型概念,並且精度可以是任意精度。想當初,第一次接觸OI算法時,寫得第一個算法就是高精度加法,搗鼓了半天。一切在Python看來,僅僅三行代碼即可完成。
【Python爬蟲】Requests庫的安裝
comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行,說find不能 有位小傑控的大牛說了一句:換一個國內的更新源吧, pip install requests -i http://pypi.douban.com/si
【Python爬蟲】從html裏爬取中國大學排名
ext 排名 所有 一個 requests 空格 創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef
【Python-pip】Python中pip加速設置
https 文件 imp 國內 技術分享 simple 技術 -h users 1:在C:\Users\Administrator\pip建一個文件pip.ini如果Administrator中沒有pip文件夾則自己新建一個,然後新建一個pip.ini文件 2:在pip.i
【python apply】python 中apply、map、applymap的用法
apply 用在dataframe上,用於對row或者column進行計算 applymap: 作用在dataframe的每一個元素上 map (其實是python自帶的)用於series上,是元素級別的操作,map 跟apply 功能類似,用法差不多 #
【python 爬蟲】BeautifulSoup4 庫的介紹使用
有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記,結合其他部落格整理學習。 前言:資訊標記形式 html是將聲音、影象、音訊嵌入到文字中,是Internet上的主要資訊組織、傳遞形式,通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標
【超解析度】python中的影象空間的轉換 RGB--YCBCR
由於人眼對顏色不敏感,而對光亮通道更加敏感。因此在超解析度任務中,我們通常需要將RGB通道轉換為Ycbcr通道。在Python的程式碼實現中,我發現opencv的RGB轉Ycbcr的計算方式和Matlab的實現方式有些不同,而NTIRE的評估往往是在matlab平臺的。因此,這裡需要注意
【Python開發】Python中資料分析環境的搭建
注:無論是任何一門語言,剛開始入門的時候,語言執行環境的搭建都是一件不輕鬆的事情。 Python的執行環境 要執行或寫Python程式碼,就需要Python的執行環境,主要的Python有以下三類: 原生態的Python:就是直接從Python的官網下載,然後安裝使
python爬蟲爬取全站url,完美小demo(可防止連結到外網等各種強大篩選)
上次完成的url爬取專案並不能滿足需求,在此完成了一個更為強大的爬取程式碼,有需要的可以直接執行,根據自己爬取的網站更改部分正則和形參即可。前排提示:執行需要耐心,因為幾千個url爬完的話,還是建議花生瓜子可樂電影準備好。 話不多說,直接上程式碼,程式碼有註釋,很容易理解。
【爬蟲】python爬蟲工具scrapy的安裝使用
關於使用方法及教程參考如下: Scrapy中文官方入門教程 本文章的安裝環境如下 window10 python3.X 文中使用的是python3.5,安裝方法如下 第一步,安裝pypiwin32 pip install pypiwin32 第二步,安裝Twisted