Linux curl命令參數詳解(6/23)
linux curl是通過url語法在命令行下上傳或下載文件的工具軟件,它支持http,https,ftp,ftps,telnet等多種協議,常被用來抓取網頁和監控Web服務器狀態。 在Linux中curl是一個利用URL規則在命令行下工作的文件傳輸工具,可以說是一款很強大的http命令行工具。它支持文件的上傳和下載,是綜合傳輸工具,但按傳統,習慣稱url為下載工具。
-A/--user-agent <string> 設置用戶代理發送給服務器 -b/--cookie <name=string/file> cookie字符串或文件讀取位置 -c/--cookie-jar <file> 操作結束後把cookie寫入到這個文件中 -C/--continue-at <offset> 斷點續轉 -D/--dump-header <file> 把header信息寫入到該文件中 -e/--referer 來源網址 -f/--fail 連接失敗時不顯示http錯誤 -o/--output 把輸出寫到該文件中 -O/--remote-name 把輸出寫到該文件中,保留遠程文件的文件名 -r/--range <range> 檢索來自HTTP/1.1或FTP服務器字節範圍 -s/--silent 靜音模式。不輸出任何東西 -T/--upload-file <file> 上傳文件 -u/--user <user[:password]> 設置服務器的用戶和密碼 -w/--write-out [format] 什麽輸出完成後 -x/--proxy <host[:port]> 在給定的端口上使用HTTP代理 -#/--progress-bar 進度條顯示當前的傳送狀態
例子:
1、基本用法
# curl http://www.linux.com
執行後,www.linux.com 的html就會顯示在屏幕上了
Ps:由於安裝linux的時候很多時候是沒有安裝桌面的,也意味著沒有瀏覽器,因此這個方法也經常用於測試一臺服務器是否可以到達一個網站
2、保存訪問的網頁
2.1:使用linux的重定向功能保存
# curl http://www.linux.com >> linux.html
2.2:可以使用curl的內置option:-o(小寫)保存網頁
$ curl -o linux.html http://www.linux.com
執行完成後會顯示如下界面,顯示100%則表示保存成功
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 79684 0 79684 0 0 3437k 0 --:--:-- --:--:-- --:--:-- 7781k
2.3:可以使用curl的內置option:-O(大寫)保存網頁中的文件
要註意這裏後面的url要具體到某個文件,不然抓不下來
# curl -O http://www.linux.com/hello.sh
3、測試網頁返回值
# curl -o /dev/null -s -w %{http_code} www.linux.com
Ps:在腳本中,這是很常見的測試網站是否正常的用法
4、指定proxy服務器以及其端口
很多時候上網需要用到代理服務器(比如是使用代理服務器上網或者因為使用curl別人網站而被別人屏蔽IP地址的時候),幸運的是curl通過使用內置option:-x來支持設置代理
# curl -x 192.168.100.100:1080 http://www.linux.com
5、cookie
有些網站是使用cookie來記錄session信息。對於chrome這樣的瀏覽器,可以輕易處理cookie信息,但在curl中只要增加相關參數也是可以很容易的處理cookie
5.1:保存http的response裏面的cookie信息。內置option:-c(小寫)
# curl -c cookiec.txt http://www.linux.com
執行後cookie信息就被存到了cookiec.txt裏面了
5.2:保存http的response裏面的header信息。內置option: -D
# curl -D cookied.txt http://www.linux.com
執行後cookie信息就被存到了cookied.txt裏面了
註意:-c(小寫)產生的cookie和-D裏面的cookie是不一樣的。
5.3:使用cookie
很多網站都是通過監視你的cookie信息來判斷你是否按規矩訪問他們的網站的,因此我們需要使用保存的cookie信息。內置option: -b
# curl -b cookiec.txt http://www.linux.com
6、模仿瀏覽器
有些網站需要使用特定的瀏覽器去訪問他們,有些還需要使用某些特定的版本。curl內置option:-A可以讓我們指定瀏覽器去訪問網站
# curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com
這樣服務器端就會認為是使用IE8.0去訪問的
7、偽造referer(盜鏈)
很多服務器會檢查http訪問的referer從而來控制訪問。比如:你是先訪問首頁,然後再訪問首頁中的郵箱頁面,這裏訪問郵箱的referer地址就是訪問首頁成功後的頁面地址,如果服務器發現對郵箱頁面訪問的referer地址不是首頁的地址,就斷定那是個盜連了
curl中內置option:-e可以讓我們設定referer
# curl -e "www.linux.com" http://mail.linux.com
這樣就會讓服務器其以為你是從www.linux.com點擊某個鏈接過來的
8、下載文件
8.1:利用curl下載文件。
#使用內置option:-o(小寫)
# curl -o dodo1.jpg http:www.linux.com/dodo1.JPG
#使用內置option:-O(大寫)
# curl -O http://www.linux.com/dodo1.JPG
這樣就會以服務器上的名稱保存文件到本地
8.2:循環下載
有時候下載圖片可以能是前面的部分名稱是一樣的,就最後的尾椎名不一樣
# curl -O http://www.linux.com/dodo[1-5].JPG
這樣就會把dodo1,dodo2,dodo3,dodo4,dodo5全部保存下來
8.3:下載重命名
# curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG
由於下載的hello與bb中的文件名都是dodo1,dodo2,dodo3,dodo4,dodo5。因此第二次下載的會把第一次下載的覆蓋,這樣就需要對文件進行重命名。
# curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG
這樣在hello/dodo1.JPG的文件下載下來就會變成hello_dodo1.JPG,其他文件依此類推,從而有效的避免了文件被覆蓋
8.4:分塊下載
有時候下載的東西會比較大,這個時候我們可以分段下載。使用內置option:-r
# curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG # curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG # curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG # cat dodo1_part* > dodo1.JPG
這樣就可以查看dodo1.JPG的內容了
8.5:通過ftp下載文件
curl可以通過ftp下載文件,curl提供兩種從ftp中下載的語法
# curl -O -u 用戶名:密碼 ftp://www.linux.com/dodo1.JPG # curl -O ftp://用戶名:密碼@www.linux.com/dodo1.JPG
8.6:顯示下載進度條
# curl -# -O http://www.linux.com/dodo1.JPG
8.7:不會顯示下載進度信息
# curl -s -O http://www.linux.com/dodo1.JPG
9、斷點續傳
在windows中,我們可以使用迅雷這樣的軟件進行斷點續傳。curl可以通過內置option:-C同樣可以達到相同的效果
如果在下載dodo1.JPG的過程中突然掉線了,可以使用以下的方式續傳
# curl -C -O http://www.linux.com/dodo1.JPG
10、上傳文件
curl不僅僅可以下載文件,還可以上傳文件。通過內置option:-T來實現
# curl -T dodo1.JPG -u 用戶名:密碼 ftp://www.linux.com/img/
這樣就向ftp服務器上傳了文件dodo1.JPG
11、顯示抓取錯誤
# curl -f http://www.linux.com/error
9,偽造來源地址,有的網站會判斷,請求來源地址。 [root@krlcgcms01 mytest]# curl -e http://localhost http://blog.51yip.com/wp-login.php [root@krlcgcms01 mytest]# curl -e http://localhost http://blog.51yip.com/wp-login.php 10,當我們經常用curl去搞人家東西的時候,人家會把你的IP給屏蔽掉的,這個時候,我們可以用代理 [root@krlcgcms01 mytest]# curl -x 24.10.28.84:32779 -o home.html http://blog.51yip.com [root@krlcgcms01 mytest]# curl -x 24.10.28.84:32779 -o home.html http://blog.51yip.com 11,比較大的東西,我們可以分段下載 [root@krlcgcms01 mytest]# curl -r 0-100 -o img.part1 http://blog.51yip.com/wp- content/uploads/2010/09/compare_varnish.jpg 12,不會顯示下載進度信息 [root@krlcgcms01 mytest]# curl -s -o aaa.jpg 13,顯示下載進度條 [root@krlcgcms01 mytest]# curl -# -O ######################################################################## 100.0% 14,通過ftp下載文件 [zhangy@BlackGhost ~]$ curl -u 用戶名:密碼 -O http://blog.51yip.com/demo/curtain/bbstudy_files/style.css [zhangy@BlackGhost ~]$ curl -O ftp://用戶名:密碼@ip:port/demo/curtain/bbstudy_files/style.css 15,通過ftp上傳 [zhangy@BlackGhost ~]$ curl -T test.sql ftp://用戶名:密碼@ip:port/demo/curtain/bbstudy_files/ [zhangy@BlackGhost ~]$ curl -T test.sql ftp://用戶名:密碼@ip:port/demo/curtain/bbstudy_files/
1. linux curl抓取網頁: 抓取百度: curl http://www.baidu.com 如發現亂碼,可以使用iconv轉碼 curl http://iframe.ip138.com/ic.asp|iconv -fgb2312 iconv的用法請參閱:在Linux/Unix系統下用iconv命令處理文本文件中文亂碼問題 2. Linux curl使用代理: linux curl使用http代理抓取頁面: curl -x 111.95.243.36:80 http://iframe.ip138.com/ic.asp|iconv -fgb2312 curl -x 111.95.243.36:80 -U aiezu:password http://www.baidu.com 使用socks代理抓取頁面: curl --socks4 202.113.65.229:443 http://iframe.ip138.com/ic.asp|iconv -fgb2312 curl --socks5 202.113.65.229:443 http://iframe.ip138.com/ic.asp|iconv -fgb2312 代理服務器地址可以從爬蟲代理上獲取。 3. linux curl處理cookies 接收cookies: curl -c /tmp/cookies http://www.baidu.com #cookies保存到/tmp/cookies文件 發送cookies: curl -b "key1=val1;key2=val2;" http://www.baidu.com #發送cookies文本 curl -b /tmp/cookies http://www.baidu.com #從文件中讀取cookies 4. linux curl發送數據: linux curl get方式提交數據: curl -G -d "name=value&name2=value2" http://www.baidu.com linux curl post方式提交數據: curl -d "name=value&name2=value2" http://www.baidu.com #post數據 curl -d a=b&c=d&txt@/tmp/txt http://www.baidu.com #post文件 以表單的方式上傳文件: curl -F file=@/tmp/me.txt http://www.aiezu.com 相當於設置form表單的method="POST"和enctype=‘multipart/form-data‘兩個屬性。 5. linux curl http header處理: 設置http請求頭信息: curl -A "Mozilla/5.0 Firefox/21.0" http://www.baidu.com #設置http請求頭User-Agent curl -e "http://pachong.org/" http://www.baidu.com #設置http請求頭Referer curl -H "Connection:keep-alive \n User-Agent: Mozilla/5.0" http://www.aiezu.com 設置http響應頭處理: curl -I http://www.aiezu.com #僅僅返回header curl -D /tmp/header http://www.aiezu.com #將http header保存到/tmp/header文件 6. linux curl認證: curl -u aiezu:password http://www.aiezu.com #用戶名密碼認證 curl -E mycert.pem https://www.baidu.com #采用證書認證 6. 其他: curl -# http://www.baidu.com #以“#”號輸出進度條 curl -o /tmp/aiezu http://www.baidu.com #保存http響應到/tmp/aiezu linux 使用curl小經驗教訓: http請求地址的url要使用""括起來。當有存在多個參數使用&連接時可能會出錯。
Linux curl命令參數詳解(6/23)