1. 程式人生 > >如何用python“優雅的”呼叫有道翻譯?

如何用python“優雅的”呼叫有道翻譯?

前言

其實在以前就盯上有道翻譯了的,但是由於時間問題一直沒有研究(我的騷操作還在後面,記得關注),本文主要講解如何用python呼叫有道翻譯,講解這個爬蟲與有道翻譯的js“鬥爭”的過程!

當然,本文僅供交流學習使用,適合自己做一些小東西娛樂,禁止用於商業用途!轉載請註明微信公眾號:bigsai。專案github地址:https://github.com/javasmall/python

在這裡插入圖片描述

分析

對於一個網站,首先肯定要的就是分析,分析其中的網頁規則

分析url

進入有道翻譯你會發現它的url是沒有變化的,也就是說它的請求是通過ajax非同步互動的。點選F12,很容易在XHR中找到這個互動的請求,點選檢視資訊,你會發現一串引數,其中有幾個還是加密了的,啥salt鹽啥的。先有個數。

在這裡插入圖片描述

分析引數01

可以大膽猜測:這個關鍵引數肯定在一塊。我們搜尋salt,然後正常的點選,格式化展開,在js中再次搜尋salt。想找相關salt附近看看能不能找到斷點進行除錯!當然,最終你可以找到11個相關內容可以在每個附近進行斷點除錯。你這樣樂意找到相關位置關鍵加密欄位和函式。

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

分析引數02

這次,咱們使用瀏覽器呼叫堆疊的功能,檢視js執行的堆疊進行查詢。直接點選到對應模組打斷點即可進行觀察。最終你會找到這個位置generateSaltSign(n)的這個函式,主要加密函式都在裡面執行

在這裡插入圖片描述
在這裡插入圖片描述

加密分析

其實有道翻譯的加密是比較簡單的了,你一看,

  • 不知道navigator.appVersion是啥是吧,我列印一看。就是瀏覽器頭進行md5加密的嘛,可以固定不變的,也就是說這個bv(t)引數它可以是固定不變的。
  • 這個ts不就是13位當前時間戳嗎!
  • 這個salt不就是時間戳後面加上100內的隨機數嗎,隨便取一個就行。
  • 這個sign不就是"fanyideskweb" + 翻譯的字串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"這麼一串串數字然後md5加密的嘛!

通過後面的分析發現這些引數並沒有變化。所以這次生成的是唯一的,但是有一個前提是5000字以內,如果超出5000字他會擷取前5000字,這點需要注意一下。

在這裡插入圖片描述

模擬請求

注意點

既然有了上面的規則,那麼咱們就可以通過這部分的規則和抓包的資訊整合用python模擬完成js的事件,傳送請求。這裡面有幾點需要注意的。

  • Fristly,你要搞定python中md5加密模組時間time模組,能夠做出一些等價的一些轉化。剛好,py的hashlibtime模組 can fullfill 你。這個問題解決。
  • In addition,post請求的主體data字典需要進行url編碼才能當成data傳送請求發過去。
  • last but not least,解決完加密最重要的就是header,大家一定不要麻批大意。這個content—length,經過我的經驗告訴我它如果填錯了就會報錯,並且不填經過抓包分析系統會自動生成。所以不要計算主體長度的,這個引數一定要省略。不放cookie會報錯,放了cookie經過測試你會發現有些可以該甚至可有可無,有些必須遵從其樣式。而cookie中必須遵從的就是[email protected]數字+@+ip形式地址。可能是為了檢驗而用,這個可以直接進行模擬。

在這裡插入圖片描述

請求程式碼

返回結果是一串json,直接拿即可!

import requests
import hashlib
import time
import urllib.parse
# 建立md5物件
def nmd5(str):
    m = hashlib.md5()
    # Tips
    # 此處必須encode
    # 若寫法為m.update(str)  報錯為: Unicode-objects must be encoded before hashing
    # 因為python3裡預設的str是unicode
    # 或者 b = bytes(str, encoding='utf-8'),作用相同,都是encode為bytes
    b = str.encode(encoding='utf-8')
    m.update(b)
    str_md5 = m.hexdigest()
    return  str_md5
def formdata(transtr):
    # 待加密資訊
    headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
    #print(round(time.time()*1000))
    bv=nmd5(headerstr)
    ts=str(round(time.time()*1000))
    salt=ts+'90'
    strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj'
    sign=nmd5(strexample)
    #print(sign)
    i=len(transtr)
    #print(i)
    # print('MD5加密前為 :' + headerstr)
    # print('MD5加密後為 :' + bv)
    dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict',
          'client':'fanyideskweb',
          'salt':salt,
          'sign':sign,
          'ts':ts,
          'bv':bv,
          'doctype':'json',
          'version':'2.1',
          'keyfrom':'fanyi.web',
          'action':'FY_BY_REALTlME'
    }
    return dict


url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
 'Referer':'http://fanyi.youdao.com/',
 'Origin': 'http://fanyi.youdao.com',
 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
 'X-Requested-With':'XMLHttpRequest',
 'Accept':'application/json, text/javascript, */*; q=0.01',
 'Accept-Encoding':'gzip, deflate',
 'Accept-Language':'zh-CN,zh;q=0.9',
 'Connection': 'keep-alive',
 'Host': 'fanyi.youdao.com',
 'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; [email protected]; JSESSIONID=; ___rl__test__cookies=1'
 }
input=input("請輸入翻譯內容:")
dict=formdata(input)
dict=urllib.parse.urlencode(dict)
dict=str(dict)
#dict=urllib.parse.urlencode(dict).encode('utf-8')

req=requests.post(url,data=dict,headers=header)
val=req.json()
print(val['translateResult'][0][0]['tgt'])

執行結果

在這裡插入圖片描述

結語

就這樣,我們從0開始優雅的揭開有道翻譯的面紗!你可以利用這個做一些有趣的事情(待續------)

當然,這個可能難度不大,對於老鳥老說很簡單(勿噴),但是對於新手來說特別適合練手,如果感覺有問題或者不理解的可以通過公眾號交流!當然,這個程式碼不知道能儲存多久會失效。所以請抓緊收藏嘗試!如果感覺可以還請奉獻愛心點點贊!當然,這個只是我腦洞的一個開端,好玩的還在後面!

專案和爬蟲倉庫github地址,歡迎star和fork!

歡迎關注一波公眾號:bigsai 一起學習,一起進步!長期分享更多樂趣!

相關推薦

python爬取翻譯遇到反爬,3分鐘反反爬繞過其反爬

利用有道翻譯的介面,自制一個翻譯程式 檢視其翻譯介面,發現post請求需要傳很多引數,而且經過測驗,satl,sigh屬於動態生成的,遇到這種問題怎麼辦?當然有時間的情況下,可以去研究這些引數在哪個響應中返回,或者怎麼構造,但是一般在工作中我們可能需求來了,不

如何用python優雅的”呼叫翻譯

前言 其實在以前就盯上有道翻譯了的,但是由於時間問題一直沒有研究(我的騷操作還在後面,記得關注),本文主要講解如何用python呼叫有道翻譯,講解這個爬蟲與有道翻譯的js“鬥爭”的過程! 當然,本文僅供交流學習使用,適合自己做一些小東西娛樂,禁止用於商業用途!轉載請註明微信公眾號:bigsai。專案gith

python爬取翻譯出錯 {‘errorcode’:50}

import urllib.request import urllib.parse url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule" key=input("請輸入

Java 呼叫 翻譯API

利用有道API進行翻譯     import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.Unsupported

vue.js 呼叫 翻譯API 實現翻譯功能

在 有道智雲  註冊使用者資訊並拿到 有道翻譯的 應用ID 和 應用金鑰 (怎麼註冊,網站都有) 呼叫 API http地址: http://openapi.youdao.com/api?q=需要翻譯的文字&appKey=應用ID&salt=隨機數&

如何呼叫翻譯API(Java,HTTP)

申請Key 首先如圖進入有道翻譯,在下方點選“有道翻譯API”。 緊接著來呼叫資料介面,按提示完成下列輸入框。 如下圖所示,已經申請成功了。 下圖是官方給的示例,可以有xml和jso

Python爬蟲】翻譯最新爬蟲教程,帶GUI應用介面,2018年3月18日實測可用

最新的有道翻譯爬蟲程式碼,包含應用程式介面,更新於20180318import urllib.request import urllib.parse import json import time import gzip import random import hashli

Python破解翻譯反爬蟲機制

破解有道翻譯反爬蟲機制 web端的有道翻譯,在之前是直接可以爬的。也就是說只要獲取到了他的介面,你就可以肆無忌憚的使用他的介面進行翻譯而不需要支付任何費用。那麼自從有道翻譯推出他的API服務的時候,就對這個介面做一個反爬蟲機制(如果大家都能免費使用到他的翻譯介面,那他的

Python(4) Python破解翻譯反爬蟲機制

web端的有道翻譯,在之前是直接可以爬的。也就是說只要獲取到了他的介面,你就可以肆無忌憚的使用他的介面進行翻譯而不需要支付任何費用。那麼自從有道翻譯推出他的API服務的時候,就對這個介面做一個反爬蟲機制(如果大家都能免費使用到他的翻譯介面,那他的API服務怎麼賺錢)。這個反爬蟲機制在爬

python爬蟲小實戰】python3.xrequests和bs4實現翻譯(中英文)

一直用的是python3.x版本的,剛開始學爬蟲的時候學長給了我個爬有道翻譯的小程式,實現中英文翻譯,由於是用urllib庫的,當時也是剛接觸python,所以一臉懵逼,現在學了一個月了,回頭再看了一下,感覺很時間單,於是就用requests庫和bs4,加上js

Python 呼叫翻譯介面

最近為了熟悉一下 js 用有道翻譯練了一下手,寫一篇部落格記錄一下,也希望能對大家有所啟迪,不過這些網站更新太快,可能大家嘗試的時候會有所不同。 首先來看一下網頁 post 過去的資料 大家不難發現,我們翻譯的內容是放在 post 的 data 中

Android應用記錄一:翻譯API調

.get 返回結果 是我 git 最新版 cts json數據 調用 sla 因為某些原因,我需要記單詞,而且討厭廣告,所以就想著自己寫個能夠查自己不認識的單詞並且以後可以隨時查看的APP。 首先我需要調用一個翻譯API,中文翻譯比較好用的API有有道翻譯API,百度翻譯A

selenium之百度搜索+翻譯的簡單testcase執行-----例報告(HTMLTestRunner)

file 第一個 stream str utf-8 equal code col sele 本篇主要實現selenium自動化測試之百度搜索+有道翻譯的簡單測試用例執行,並通過HTML TestRunner生成html測試報告.這是前不久跟著視頻學習的時候,練習的第一個HT

python之爬蟲的入門03------post請求偽造、程式猿是怎麼玩翻譯

import urllib.request import urllib.parse import json content = input('請輸入要翻譯內容:') # url = 'http://fanyi.youdao.com/translate_o?smartresult=di

python 翻譯

import requests import time import random import hashlib i = str(int(time.time()*1000)+random.randint(1,10)) t = input("please input the word you want t

python 自制翻譯工具

一、登陸有道翻譯頁面,分析請求 url地址:http://fanyi.youdao.com/ 綜合上述分析,當改變裡面內容時,Form Data(向後臺傳送的資料)中salt、sign、ts的值在變化,其他幾個沒有變化 二、找到請求的JS 連結地址為:http://shar

最新翻譯爬蟲教程 (python爬蟲)

環境:python3 直接上程式碼: #coding=utf-8 import requests import json from lxml import etree class YouDaoTranslateWeb: def __init__(self): se

python一行程式碼實現百度翻譯翻譯結果獲取-----py學習爬蟲歷程(一)

更新(18-6-2):利用requests庫只需一行程式碼就可以獲取結果,程式碼在最後前言:本文參考於https://blog.csdn.net/c406495762/article/details/59095864一.本節主要用到的知識1-1:urllib.request.

Python編寫翻譯介面小工具

前幾天剛剛學習了urllib和json庫 urllib 庫主要是檢視一個網站網頁的原始碼。多於正則,bs配合編寫爬蟲。 它還有一個重要的功能是,能向網站提交get post的請求 還有附帶的幾個模組 urllib.request 請求模組 urllib.error 異

JAVA呼叫API介面對資料庫中的中文語句進行翻譯

今天遇到一個小需求,就是將資料庫中的某個中文欄位翻譯成英文,總共有六百多條,直接只用資料庫update語句和手動翻譯效率很慢。我想這如果可以呼叫有道翻譯API介面將翻譯的語句結合原中文欄位拼接成update語句,最後將update語句做成update指令碼即可一次性全部修改資