一個爬取法律網站的爬蟲

阿新 • • 發佈：2017-10-10

重連 light str 避免 log nic urllib python 文件的

因為各種原因，需要建立一個法律大全的庫，方便做匹配等。重新拿起了python，發現忘的差不多了。

網上找了一下，這是一個大佬做的一個最簡單的爬蟲，http://www.cnblogs.com/fnng/p/3576154.html，爬取圖片的。

於是，學習了之後，自己做了一個爬蟲，由於這個是基於2.7版本的，只用了urllib的庫，中文的問題啊，真是煩人。所幸經過兩天大量的百度，解決了這些亂七八糟的問題。走過的彎路如下，警醒自己。

一.字符串常用操作.

#list轉換成字符串
list = "".join(list)
#字符串去除左邊空格
str = str.lstrip()
#同理，右邊空格rstrip,空格strip
#去除對應字符
str = str.slip("不要我了")

二.中文問題與編碼格式問題

由來已久，python2.7最大的問題。

1.string的問題

string在python2.7中默認為ascii的格式，可以通過導入sys來轉換成utf-8

#在前面插入這三行代碼
import sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)

2.在鏈接或者其他匹配的東西中，請在前面加上u，或者在後面加上.encode("xxx").統一轉換成unicode格式，進行操作，不然會出現很多奇奇怪怪的錯誤

#字符串轉換成unicode
str = u"我要被轉換了"

#變量被轉換
str = str.decode("utf-8")#這裏可能會是其他的編碼格式，不一定是utf-8，看情況

3.中文文件路徑

盡量避免使用中文路徑，如果一定要用，只能將路徑中的內容全部轉換成unicode格式的。

#例如這是我的程序中一段代碼,_save是要保存文件的本地路徑
_save = mulu + r"/" + title + u"(" + time + u").txt"

三.網站網速慢怎麽辦。

運氣不好，爬的網站速度慢成狗，同學爬幾十萬條的數據都爬完了，我的還是龜速前進。每個頁面都要嘗試訪問好幾次才能進。

設置超時時間和重新連接。

#設置重連次數計數器
fails = 0
#urllib不能再openurl方法裏設置超時時間，只能設置全局的。
#這裏設置為5秒
socket.setdefaulttimeout(5)
 while True:
                    try:
                        if fails >= 20:
                            break
                        #這裏是訪問的方法
                    except:
                        fails += 1
                        print "超時了，重新接入"
                    else:
                        break

一個爬取法律網站的爬蟲

重連 light str 避免 log nic urllib python 文件的因為各種原因，需要建立一個法律大全的庫，方便做匹配等。重新拿起了python，發現忘的差不多了。網上找了一下，這是一個大佬做的一個最簡單的爬蟲，http://www.cnblogs.com

java程式設計師菜鳥進階（八）分享一個爬取B2B網站資訊的程式

前段時間，女朋友如願以償的找到了銷售的工作，第一天正式上班還挺高興，第二天就開始愁眉苦臉了。就是因為他這銷售實在是太麻煩，以後每天要到一些B2B網站去找一些客戶資訊，每天要找幾百條，剛開始我還安慰的說，沒事，以後我幫你找，我接手這工作第一天還很老實，第一天用了不到一個小時的時間幫忙找了八十條，但到

一個爬取52破解的全部帖子地址的簡單爬蟲

軟件調試 ict print __main__ 逆向慶典活動 exception requests 總頁數 1 # -*- coding:utf-8 -*- 2 import requests 3 from bs4 import BeautifulSou

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

scrapy爬蟲爬取動態網站

爬取360圖片上的美女圖片 360圖片網站上的圖片是動態載入的，動態載入就是通過ajax請求介面拿到資料喧染在網頁上。我們就可以通過遊覽器的開發者工具分析，在我們向下拉動視窗時就會出現這麼個請求，如圖所示：所以就判定這個url就是ajax請求的介面:

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

Python爬蟲——4.4爬蟲案例——requests和xpath爬取招聘網站資訊

# -*-coding:utf-8 -*- ''' 使用requests模組進行資料採集，XPath進行資料篩選''' import requests from lxml import etree #

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

python3程式設計07-爬蟲實戰：爬取新聞網站資訊3

本篇部落格在爬取新聞網站資訊2的基礎上進行。主要內容如下： 1.定義獲取一頁20條連結內容的函式 2.構造多個分頁連結 3.抓取多個分頁連結新聞內容 4.用pandas整理爬取的資料 5.儲存資料到csv檔案 6.Scrapy的安裝

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

爬蟲系列3：Requests+Xpath 爬取租房網站信息並保存本地

imp 情侶 http \n 頻率 lazy desktop 火車 mode 數據保存本地參考前文爬蟲系列1：https://www.cnblogs.com/yizhiamumu/p/9451093.html 參考前文爬蟲系列2：https://www.cnblo

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

python爬蟲案例——根據網址爬取中文網站，獲取標題、子連線、子連線數目、連線描述、中文分詞列表

全棧工程師開發手冊（作者：欒鵬）其中使用到了urllib、BeautifulSoup爬蟲和結巴中文分詞的相關知識。除錯環境python3.6 # 根據連線爬取中文網站

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

爬取小說網站整站小說內容 -《狗嗨默示錄》-

exception chap color row con print 動漫 pri value # !/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request import re import M

webmagic爬取渲染網站

pat sleep 分析最終 sets 開發者 src ner 分享最近突然得知之後的工作有很多數據采集的任務，有朋友推薦webmagic這個項目，就上手玩了下。發現這個爬蟲項目還是挺好用，爬取靜態網站幾乎不用自己寫什麽代碼（當然是小型爬蟲了~~|）。好了，廢話少說，以

一個爬取法律網站的爬蟲

相關推薦