爬蟲，基於request，bs4 的簡單實例整合

阿新 • • 發佈：2019-02-10

lin wow64 host input標簽 lose 常用 col settings feature

簡單爬蟲示例

爬取抽屜，以及自動登陸抽屜點贊

先查看首頁拿到cookie，然後登陸要攜帶首頁拿到的 cookie 才可以通過驗證

""""""

# ################################### 示例一：爬取數據（攜帶請起頭） ###################################
"""
import requests
from bs4 import BeautifulSoup

r1 = requests.get(
    url=‘https://dig.chouti.com/‘,
    headers={
        ‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
    }
)

soup = BeautifulSoup(r1.text,‘html.parser‘)
content_list = soup.find(name=‘div‘,attrs={"id":"content-list"})
item_list = content_list.find_all(name=‘div‘,attrs={‘class‘:‘item‘})
for item in item_list:
    a = item.find(name=‘a‘,attrs={‘class‘:‘show-content color-chag‘})
    print(a.text.strip())

 
"""
# ################################### 示例二：登陸點贊 ###################################
"""
import requests
# 1. 查看首頁
r1 = requests.get(
    url=‘https://dig.chouti.com/‘,
    headers={
        ‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
    }
)

# 2. 提交用戶名和密碼
r2 = requests.post(
    url=‘https://dig.chouti.com/login‘,
    headers={
        ‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
    },
    data={
        ‘phone‘:‘8613121758648‘,
        ‘password‘:‘woshiniba‘,
        ‘oneMonth‘:1
    },
    cookies=r1.cookies.get_dict() 
    # 套路 正常用戶必然會先訪問首頁然後再登陸
    # 如果你直接登陸必然是爬蟲，因此設計在第一次訪問首頁的時候先創建cookie 並且返回了回去
    # 並且要求你第二次訪問的時候要帶著這個 cookie 
)

# 3. 點贊
r3 = requests.post(
    url=‘https://dig.chouti.com/link/vote?linksId=20435396‘,
    headers={
        ‘user-agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
    },
    cookies=r1.cookies.get_dict()
)
print(r3.text)
 
"""

# ############## 方式二 session 方式 ##############
"""
# 用 session 自動封裝好 cookie 不用在以後自己攜帶
import requests

session = requests.Session()
i1 = session.get(url="http://dig.chouti.com/help/service")
i2 = session.post(
    url="http://dig.chouti.com/login",
    data={
        ‘phone‘: "8615131255089",
        ‘password‘: "xxooxxoo",
        ‘oneMonth‘: ""
    }
)
i3 = session.post(
    url="http://dig.chouti.com/link/vote?linksId=8589523"
)
print(i3.text)
 
"""

爬取拉勾網

請求頭中存在自定義的驗證字段，要想辦法拿到才可以正確爬取,以及 Referer 的使用

import re
import requests


"""
密碼加密了的時候
    找js 通過 python 實現加密方式
    直接把加密後的密文拿來用
"""

r1 = requests.get(
    url=‘https://passport.lagou.com/login/login.html‘,
    headers={
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘,
    }
)

"""
    有兩個奇怪的東西，是網站的防禦機制
        這兩個數據必然是對方發給我們的
        要不在響應頭裏面，要不在響應體裏面
            響應頭看不到。那就去響應體裏面找。
"""

# 因為不是寫在標簽裏面的。只能用正則來拿了
X_Anti_Forge_Token = re.findall("X_Anti_Forge_Token = ‘(.*?)‘", r1.text, re.S)[0]
X_Anti_Forge_Code = re.findall("X_Anti_Forge_Code = ‘(.*?)‘", r1.text, re.S)[0]
# print(X_Anti_Forge_Token, X_Anti_Forge_Code)

r2 = requests.post(
    url=‘https://passport.lagou.com/login/login.json‘,
    headers={
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘,
        ‘X-Anit-Forge-Code‘:X_Anti_Forge_Code,
        ‘X-Anit-Forge-Token‘:X_Anti_Forge_Token,
        ‘Referer‘: ‘https://passport.lagou.com/login/login.html‘, # 上一次請求地址是什麽？很多網站會要求帶著個才可以繼續
    },
    data={
        "isValidate": True,
        ‘username‘: ‘15131255089‘,
        ‘password‘: ‘ab18d270d7126ea65915c50288c22c0d‘,    # 直接發密文了
        ‘request_form_verifyCode‘: ‘‘,
        ‘submit‘: ‘‘
    },
    cookies=r1.cookies.get_dict()
)
print(r2.text)

自動登陸GitHub

scrf_token 的驗證

""""""
# ################################### 示例三：自動登錄GitHub ###################################
# 1. GET，訪問登錄頁面
"""
- 去HTML中找隱藏的Input標簽獲取csrf token
- 獲取cookie
"""

# 2. POST，用戶名和密碼
"""
- 發送數據：
    - csrf
    - 用戶名
    - 密碼
- 攜帶cookie
"""

# 3. GET,訪問https://github.com/settings/emails
"""
- 攜帶 cookie
"""

import requests
from bs4 import BeautifulSoup

# ##########################################################

#  訪問登陸頁面，獲取 authenticity_token
i1 = requests.get(
    url=‘https://github.com/login‘
    )
soup1 = BeautifulSoup(i1.text, features=‘lxml‘)
tag = soup1.find(name=‘input‘, attrs={‘name‘: ‘authenticity_token‘})
authenticity_token = tag.get(‘value‘) # authenticity_token 拿到
c1 = i1.cookies.get_dict()
i1.close()

#  攜帶authenticity_token和用戶名密碼等信息，發送用戶驗證
form_data = {
"authenticity_token": authenticity_token, # 放在請求體中發過去
    "utf8": "",
    "commit": "Sign in",
    "login": "",
    ‘password‘: ‘‘
}

i2 = requests.post(
    url=‘https://github.com/session‘, 
    data=form_data, 
    cookies=c1
    )
c2 = i2.cookies.get_dict()
c1.update(c2) # 將兩次的 cookie 整合一起
i3 = requests.get(‘https://github.com/settings/repositories‘, cookies=c1)

soup3 = BeautifulSoup(i3.text, features=‘lxml‘)
list_group = soup3.find(name=‘div‘, class_=‘listgroup‘)

from bs4.element import Tag

for child in list_group.children:
    if isinstance(child, Tag):
        project_tag = child.find(name=‘a‘, class_=‘mr-1‘)
        size_tag = child.find(name=‘small‘)
        temp = "項目:%s(%s); 項目路徑:%s" % (project_tag.get(‘href‘), size_tag.string, project_tag.string, )
        print(temp)

總結

請求頭：

user-agent
referer
host
cookie

特殊請起頭，查看上一次請求獲取內容。

‘X-Anit-Forge-Code‘:...
‘X-Anit-Forge-Token‘:...

請求體：

- 原始數據
- 原始數據 + token
- 密文
　　- 找算法 
　　- 使用密文

套路：

- post登錄獲取cookie，以後攜帶cookie 
- get獲取未授權cookie，post登錄攜帶cookie去授權，以後攜帶cookie

爬蟲，基於request，bs4 的簡單實例整合

lin wow64 host input標簽 lose 常用 col settings feature 簡單爬蟲示例爬取抽屜，以及自動登陸抽屜點贊先查看首頁拿到cookie，然後登陸要攜帶首頁拿到的 cookie 才可以通過驗證 """""" # ##

基於CSOCKET的Client簡單實例（轉）

ffffff 顯示數據 sdn for sock hit ssa tex 接收原文轉自 http://blog.csdn.net/badagougou/article/details/78410382 第一步：創建一個基類為CSOCKET類的新類，Cclient，並在

for循環簡單實例（打印乘法表，打印菱形）

std .com include nbsp 計算 bubuko ima ear \n 關於for循環的簡單應用：回顧了一下for循環的嵌套： for循環嵌套簡單來講就是一個外圈的for程序裏面一個套著一個小的for程序，如果在範圍內就來回運行計算，超出了就跳出等待下面

Java語言，基於TCP編寫一個簡單的Client/Server 網路應用程式。

要求實現客戶向伺服器傳輸任意一個字串，伺服器將收到的字串變換成大寫後傳回客戶。//客戶端： package tcpClient; import java.io.BufferedReader; import java.io.DataOutputStream; impo

spring定時器，基於maven的Quarzt簡單開發

閒話不多說，直接上圖該程式是在maven下開發的。該程式是一個maven的web程式，當伺服器啟動，定時就會自動啟動。一、pom檔案 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht

Execl的匯入，基於POI的一個簡單的實現

先把Maven依賴匯入進來<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <versio

創建內部類的實例對象，必須創建外部類的實例對象

需要 out 訪問我們 -h 內部類 nbsp mil 分配 Outer類中定義了一個成員內部類Inner,需要在main()方法中創建Inner類實例對象，方法：Outer.Inner in = new Outer().new Inner(); 內部類可以引用全局

maven添加jetty插件，同時運行多個實例

connector 插件 path http clip fig tom plugin artifact <plugins>  <plugin> <groupId>org

微信約戰炸金花棋牌平臺出租Java普通代碼塊，構造代碼塊，靜態代碼塊區別，執行順序的代碼實例

屬性 java 對象 ... 沒有每次 class string eat 除了說微信約戰炸金花棋牌平臺出租( h5.super-mans.com Q:2012035031)普通代碼塊，靜態代碼塊，構造代碼塊的執行順序外，還有靜態方法，靜態變量等，都放在一起的話，這個

Python中的元組，字典、計算器代碼實例及python2與python3的區別

所有 time tor result inpu __name__ 字符 img 歡迎來到 1.計算器實例#/usr/bin/env python # -*- coding:utf-8 -*- # @time :2018/1/22 21:09 # @Author :Fen

第14章練習，shell腳本編程實例-1

shell linux 腳本編程 shell腳本編程 shell腳本編程習題更多內容請點擊：Linux學習從入門到打死也不放棄，完全筆記整理（持續更新，求收藏，求點贊~~~~） http://blog.51cto.com/13683480/20954391，編寫腳本/root/bin/c

阿裏雲服務器，無法通過公網ip訪問實例

cat nbsp 檢測 tom esc 防火墻控制臺什麽是否昨天得知阿裏雲esc又打折了，趕緊入手了一波，因為以前有部署過的經驗，所以很快就部署上了項目，就在欣喜的訪問時，卻無訪問。我按照下面步驟一步一步的檢測， 1、服務器上是否成功部署jdk和tomcat 2、

多多客小程序(doodoo)發布 1.0，基於 node， vue 開發的微信小程序系統

node doodoo 多多小程序開源版 API接口文件 server 環境需求 node >= 8.0 mysql 配置文件 .env # 應用配置 APP_PORT=3001 APP_HOST=http

shiro，基於springboot，基於前後端分離，從登入認證到鑑權，從入門到放棄

這個demo是基於springboot專案的。名詞介紹： ShiroShiro 主要分為安全認證和介面授權兩個部分，其中的核心元件為 Subject、 SecurityManager、 Realms，公共部分 Shiro 都已經為我們封裝好了，我們只需要按照一定的規則去編寫響應的程式碼即可…

多多客小程式(doodoo)釋出 1.0，基於 node， vue 開發的微信小程式系統

doodoo 多多小程式開源版 API介面檔案 server 環境需求node >= 8.0 mysql 配置檔案 .env # 應用配置 APP_PORT=3001 APP_HOST=http://127.0.0.1:3001 # 驗證碼 VERIFY_MAXIP=36 /

eclipse下maven管理Spring專案構：SpringAOP，基於XMl，基於註解宣告事務，及事務的傳播行為

一：在applicationContext.xml中加入 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans"

多多小程式(doodoo)釋出1.0，基於node，vue開發的微信小程式系統

多多小程式(doodoo)釋出1.0，基於Doodoo.js -- 中文最佳實踐Node.js Web快速開發框架，支援Koa.js, Express.js中介軟體。包含多項功能改進，及Bug修復。更新內容： 1.【新增】新增支援自研baas系統模組化開發（類似於小程式雲開發方式） 2.【新增】新

網站上線之前，基於SEO，該做哪些測試？

對於任何一個網站而言，在新站上線之初，每個SEO人員，都需要進行縝密的測試，用於輔助網站正式上線後，可以在搜尋引擎中，有一個不錯的排名。那麼，網站上線之前，基於SEO，該做哪些測試？根據以往新網站SEO的經驗，蝙蝠俠IT認為，我們需要關注如下細節： 1、禁止蜘蛛爬行對

keytool生成證書檢視證書資訊，以及java操作的簡單用例

首先用keytool生成證書1 產生金鑰D:/>keytool -genkey -alias wenger -keysize 1024 -keypass abcdef -keystore myKeystore -storepass abcdef -dname "CN=chen sr, OU=tangl

Delphi 中，基於介面，封裝類為 BPL 包動態載入的程式架構之一

DELPHI 的普通程式編譯出來比較大，一個空程式也要超過1M。其原因是 DELPHI 的程式把所有需要的庫都編譯到EXE檔案裡面去了。這樣做有個好處：程式釋出簡單，只要釋出一個 EXE 就搞定。不過，當程式寫得很大，又是多人開發，並且程式不斷升級，可能還有多個版本的時候

爬蟲，基於request，bs4 的簡單實例整合

簡單爬蟲示例

爬取抽屜，以及自動登陸抽屜點贊

爬取拉勾網

自動登陸GitHub

總結

請求頭：

請求體：

套路：

相關推薦