1. 程式人生 > >Linux 命令篇 之 wget(1)

Linux 命令篇 之 wget(1)

wget是一個從網路上自動下載檔案的自由工具,支援通過HTTP、HTTPS、FTP三個最常見的TCP/IP協議下載,並可以使用HTTP代理。wget名稱的由來是"World Wide Web"與"get"的結合。

我們嘗試來下載一個網路圖片吧!

很簡單的一條命令,就wget加地址

linux--wget(1) - yakuit - Yakuit的部落格

linux--wget(1) - yakuit - Yakuit的部落格

挺漂亮的

在/etc/wgettrc檔案和甲目錄下的.wgettrc檔案,看看裡面的配置檔案,搞清楚是搞什麼的先

linux--wget(1) - yakuit - Yakuit的部落格

這是不希望下載列表

linux--wget(1) - yakuit - Yakuit的部落格

也可以是wget  -X a,b

-r的話我們可以實現多級目錄遞迴下載   -o啟動日誌記載在wget-log檔案了

--background看名字就知道這是後臺下載啦

Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網路爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議的本質是網站和搜尋引擎爬蟲的溝通方式,用來指導搜尋引擎更好地抓取網站內容,而不是作為搜尋引擎之間互相限制和不正當競爭的工具。

當我們遇上了robots。Txt封禁的時候我們是用wget –r –execute robots=off www.baidu.com