1. 程式人生 > >python爬蟲過程中出現的問題彙總

python爬蟲過程中出現的問題彙總

1.出現 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)

   原因:混淆了 python2 裡邊的 str 和 unicode 資料型別

   解決辦法:在出錯的指令碼前加上以下程式碼:

   import sys

   reload(sys)

   sys.setdefaultencoding('utf8')

  或者是:

   import sys

   if sys.getdefaultencoding()!='utf-8':

       reload(sys)

       sys.setdefaultendcoding('utf-8')

2.出現 SyntaxError: Non-ASCII character '\xe8' in file

   原因:Python的預設編碼檔案是用的ASCII碼

   解決:只要在檔案開頭加入#-*- coding: UTF-8 -*-或者 #coding=utf-8就可以了

3.利用githup上的爬蟲爬取裁判文書網時,在文書id的解密過程中出現瞭如下問題

   

  異常產生於:

def decrypt_id(RunEval, id):
    """
    docid解密
    """
    js = ctx2.call("GetJs", RunEval)
    print js
    js_objs = js.split(";;")
    js1 = js_objs[0] + ';'
    js2 = re.findall(r"_\[_\]\[_\]\((.*?)\)\(\);", js_objs[1])[0]
    key = ctx2.call("EvalKey", js1, js2)
    key = re.findall(r"\"([0-9a-z]{32})\"", key)[0]
    docid = ctx2.call("DecryptDocID", key, id)
    return docid

 注意:安裝node.js後還需要更換cnpm的映象(執行下面這條語句)

 文書id解密過程: 

 首先,由獲得的runEval得到下圖:

 

  提取com.str._KEY的值,傳入到js檔案中的com.str._KEY

  之後,對加密的id進行解密

var unzipid=unzip(id);
var realid=com.str.Decrypt(unzipid);
return realid;

 最終的返回值即文書id明文。

相關推薦

python爬蟲過程出現的問題彙總

1.出現 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)    原因:混淆了 python2 裡邊的 str 和 unicod

關於windows安裝python過程出現error 2503 2502錯誤的解決方法

今天在安裝python時,發生了2503 2502的錯誤,去網上查了一下,也有很多類似的錯誤發生,但是我按照他們的方法如同(http://jingyan.baidu.com/article/a501d80cec07daec630f5e18.html)引自百度經驗。 最後會遇

selenium+python 自動化測試,下載檔案過程出現對話方塊問題的處理

近來,學習selenium ,下載檔案過程中,瀏覽器會彈出對話方塊。遇到這種情況,筆者綜合網上的教程,寫出注意事項。 筆者的環境是:win 7 64位 +python 3.6 +Firefox 50.0.1 +selenium 3.0.2 第一步:需要下載某個檔案,例如下載

SpringMVC配置過程出現的問題!

編碼格式 efault 來源 app 代碼 spring 配置 沒有 過程 <c:set var="ctx" value="${pageContext.request.contextPath}" />不起作用,原因是web.xml沒有定義了XML的版本,編碼格

MySQL安裝過程出現“APPLY security settings錯誤”的解決方式

錯誤 data- service gin sql p s 過程 mysql安裝 一次 ***********************************************聲明***************************************

SVC 工作過程出現的錯誤記錄(SEO項目)

.com ntc ebs src 檢查 system async 錯誤記錄 client 1.同一のキーを含む項目が既に追加されています。追加的項目中含有重復主鍵) /seo‘ アプリケーションでサーバー エラーが発生しました。 同一のキーを含む項目が既に追加されていま

mysql安轉過程出現的問題! Fatal error: Can't open and lock privilege tables: Table 'mysql.user' doesn't exis

fatal 啟動失敗 ini error pri -- http class sql net start mysql啟動失敗,報錯信息如上,因缺少mysql這個庫 所以跳過 在my.ini中添加 --skip-grant-tables 再啟動mysql 然後進

【MySQL】【復制】利用slave_exec_mode處理復制過程出現的1062與1032錯誤

cati 事務 thead 組成 .cn 推薦 ren 報錯 引入 背景: ? 今天張師兄在群裏問了主從之間出現1032錯誤後,使用pt-slave-restart跳過後又出現了1062錯誤,該如何快速處理。 問題解析: ? 1032錯誤:主庫傳遞過來的binlog

mysql/mariadb學習過程出現的問題與解決

AR 數據 files l數據庫 pre .com 單個 primary cti mysql> insert into student values(162111,‘周帥‘,‘男‘,21,‘CS‘); ERROR 1062 (23000): Duplicate en

Hive執行過程出現Caused by : java.lang.ClassNotFoundException: org.cloudera.htrace.Trace的錯誤解決辦法(圖文詳解)

pre wid logs In 實用 過程 ase edit 微信     不多說,直接上幹貨! 問題詳情     如下   這個錯誤的意思是缺少 htrace-core-2.04.jar。  解決辦法:   

使用jqGrid過程出現的問題

處理 循環調用 結果 加載 自測 屬性 循環 方法 調用 在使用jqGrid過程中,需要後臺查詢數據添加到表格中,在js中循環調用addRowData方法時出現瀏覽器崩潰現象。 原因:jqGrid的addRowData方法中做了一系列的處理,在後臺返回數據量超過200左右時

[Python]學習過程的那些問題--不斷更新

all tin pyc 支持 不支持 nco () tdi python 一、安裝模塊提示報錯:You are using pip version 9.0.1, however version 9.0.3 is available.You should consider u

hadoop安裝過程出現的錯誤

重新 ubuntu 嘗試 環境變量 項目 環境 usr 返回 內存不足 此次來記錄一下我在安裝Hadoop安裝過程中出現的錯誤,安裝過程參照慕課網林子雨教程進行安裝,在嘗試過程中出現的錯誤如下: 1.在安裝Ubuntu時,新建虛擬電腦時,並沒有在版本的輸入框中有Ubuntu

Python學習過程各個難點---數據類型篇

nbsp type 修改 support 組類型 數據 bubuko 技術分享 str ---恢復內容開始---   當時在學習python的基本數據類型時,對於可變與不可變類型不是了解的很透徹,這篇是回過頭來自己的一些理解。   可變的數據類型有列表,不可變的數據類型有字

Python學習過程各個難點---函數篇

lambda 個人 現在 學習過程 分享 oba 了解 glob nbsp 對於函數,我一直分不清局部變量與全局變量,今天又好好研究了下,終於搞清楚了。 例子: 其次對於global這個關鍵字我也是一知半解的狀態,之前整個人都是懵懵的,現在搞明白了 匿名函數:

如何解決git====push 過程出現的。error: failed to push some refs

round hang about -h font 通過 成功 oge mage 當我們在利用git push 文件到倉庫時出現了一下問題: ! [rejected] master -> master (fetch first)error: failed to pu

記一次成功的arp流量轉發以及實驗過程出現的問題

0x00    前言 之前筆者仔細學習了arp協議和arp欺騙的原理和細節,這裡通過kali linux和其他虛擬機器完成一個實驗 實驗環境: kali linux 2018.2(32位)  winxp(32位) ,均為虛擬機器 實驗工具:arpspoof,

執行python爬蟲程式碼遇到的問題~

可以算是一次小嚐試~ 遇到的問題有:       from bs4 import BeautifulSoup ModuleNotFoundError: No module named 'bs4'   bs4.FeatureNo

爬蟲過程遇到的防爬措施

1.用scrapy爬取趕集網租房資訊時,由於訪問頻繁,需要通過驗證碼才能訪問頁面; 解決方案: 網站通過使用者的Cookie資訊對使用者進行識別與分析,所以要防止目標網站識別我們的會話資訊。 在Scrapy中,我們可以在爬蟲專案的setting.py檔案中進行設定 將setting.

Prometheus配置過程出現的bug及解決方案

一、簡介 Node exporter,Promenade和Alertmanager在安裝配置後,在除錯Prometheus執行中出現了不少bug,針對這些bug進行了解決。本部落格主要蒐集總結這些bug和解決方案,進行記錄。 Prometheus執行命令參考如下: docker ru