Linux 命令篇 之 wget(1)
阿新 • • 發佈:2018-12-15
wget是一個從網路上自動下載檔案的自由工具,支援通過HTTP、HTTPS、FTP三個最常見的TCP/IP協議下載,並可以使用HTTP代理。wget名稱的由來是"World Wide Web"與"get"的結合。
我們嘗試來下載一個網路圖片吧!
很簡單的一條命令,就wget加地址
挺漂亮的
在/etc/wgettrc檔案和甲目錄下的.wgettrc檔案,看看裡面的配置檔案,搞清楚是搞什麼的先
這是不希望下載列表
也可以是wget -X a,b
-r的話我們可以實現多級目錄遞迴下載 -o啟動日誌記載在wget-log檔案了
--background看名字就知道這是後臺下載啦
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜尋引擎爬蟲的溝通方式,用來指導搜尋引擎更好地抓取網站內容,而不是作為搜尋引擎之間互相限制和不正當競爭的工具。
當我們遇上了robots。Txt封禁的時候我們是用wget –r –execute robots=off www.baidu.com