1. 程式人生 > >python 編寫爬蟲常用包下載地址、工具網站以及相關安裝問題集合(持續更新)

python 編寫爬蟲常用包下載地址、工具網站以及相關安裝問題集合(持續更新)

轉載請標明出處,謝謝。以下連結出現問題請私戳或留言,我儘快解決。


免費代理ip網站: http://www.xicidaili.com/nn/


geckodriver 下載地址: https://github.com/mozilla/geckodriver/releases
由於防火牆原因,可能不能直接訪問的,請參考我的另外一篇部落格:
https://blog.csdn.net/JasonRaySHD/article/details/82469969

pyinstaller 支援python3.7的版本
https://github.com/pyinstaller/pyinstaller/archive/develop.tar.gz


直接執行命令(pip install https://github.com/pyinstaller/pyinstaller/archive/develop.tar.gz) 即可安裝

wwwscan.exe
http://pan.baidu.com/s/1c0kXufe
簡單介紹wwwscan的文章
http://blog.chinaunix.net/uid-26726420-id-3205088.html

OCR技術–Tesseract(有關驗證碼處理) 下載地址:
https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-3.02.02-win32-lib-include-dirs.zip/download

Tor代理伺服器(洋蔥路由)下載地址:(需要先翻牆…)
https://www.torproject.org/projects/torbrowser.html.en#downloads

linux虛擬機器
http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso


MySql 下載地址: https://dev.mysql.com/downloads/
MySql 學習地址: http://www.runoob.com/mysql/mysql-tutorial.html
Mysql 資料型別詳解:
https://www.cnblogs.com/Caveolae/p/7058890.html


正則表示式學習+練習地址:
https://regex101.com/

Jason資料格式講解:
https://blog.csdn.net/yuzhangsir/article/details/76599940

BeautifulSoup 深入理解:
https://cuiqingcai.com/1319.html

lxml 用法講解:
https://blog.csdn.net/flyingfishmark/article/details/51272480

寫的很好的一篇有關爬蟲偽裝(ip,headers,蜜罐陷阱的避免等)的部落格
https://blog.csdn.net/c406495762/article/details/72793480/

《精通python爬蟲框架scrapy》書中原始碼地址:
https://github.com/scalingexcellence/scrapybook

lambda用法講解:
https://www.cnblogs.com/hf8051/p/8085424.html

scrapy框架中browsercookie安裝問題:安裝pycrypto.whl 出現問題:
解決辦法:
1、先到這個網站下載下來pycrypto.tar(由於不怎麼常用下載下來的是一個壓縮包,在一個地方解壓縮後,在命令列中cd跳轉到該路徑下python setup.py install安裝)
要是這一步非常順利的話,就可以再次嘗試pip安裝browsercookie,並忽略之後的內容。
2、https://blog.csdn.net/a624806998/article/details/78596543 內容非常詳細,我就是看這個解決了一半,然後看了下評論區裡面寫的 https://www.jianshu.com/p/a73fd1af5e99 這個文章就解決了。希望對你有幫助。
對了,新增/修改了使用者變數,記得重新開啟一遍命令視窗,否則之前的內容不會更新

強調一下:

上面這篇文章中提到的PhatomJs已與Selenium和平?分手,目前只支援瀏覽器無頭模式,詳細描述見這篇部落格,寫的也挺好:
https://blog.csdn.net/qq_30242609/article/details/79323963


安裝python的很多包時,出現錯誤: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual

解決方法:

Microsoft visual c++ 14.0下載地址:
https://pan.baidu.com/s/1WaBxFghTll6Zofz1DGOZBg
1、失效請留言(私信)
2、這裡引用了一篇我找到的部落格,原部落格地址:
https://blog.csdn.net/qq_38316655/article/details/79417709

或出現問題: Failed building wheel fo ****

到下面這個網站下載響應的whl檔案:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient

注意!最好不要用qq瀏覽器,360瀏覽器什麼的,會被禁止訪問,出現404頁面,網站有相關具體說明如下:

這裡寫圖片描述

翻譯一下:如果下載失敗,請:
1、重新整理頁面
2、設定瀏覽器,使其允許網站javascript的執行
3、關閉下載管理(沒懂…)
5、用firefox瀏覽器訪問該網址
6、減少下載頻率和數量(應該是網站的反爬蟲機制) 要是還有問題,那麼關注該網站的其他說明。

下載舉例:

例如: mysqlclient‑1.3.13‑cp37‑cp37m‑win_amd64.whl 其中:
1.3.13 為mysqlclient版本
cp37/cp37m 為支援的python版本->3.7

下載完成後,跳轉到該檔案的目錄下 執行pip install 檔名就ok了

其他我在學習過程中遇到的問題,請看:
https://mp.csdn.net/mdeditor/82562055
希望對你有所幫助