1. 程式人生 > >Error 403: Forbidden 錯誤網站禁止爬蟲

Error 403: Forbidden 錯誤網站禁止爬蟲

HTTP request sent, awaiting response... 403 Forbidden

2014-09-06 00:53:22 ERROR 403: Forbidden

Error 403: Forbidden錯誤是由於網站禁止爬蟲,可以在請求加上頭資訊,偽裝成瀏覽器訪問

#偽裝瀏覽器頭

curl_setopt($ch, CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)");

-----------------------------------------------------

bool curl_setopt (int ch, string option, mixed value)
curl_setopt()函式將為一個CURL會話設定選項。option引數是你想要的設定,value是這個選項給定的值。


下列選項的值將被作為長整形使用(在option引數中指定):    
•    CURLOPT_INFILESIZE : 當你上傳一個檔案到遠端站點,這個選項告訴PHP你上傳檔案的大小。
•    CURLOPT_VERBOSE : 如果你想CURL報告每一件意外的事情,設定這個選項為一個非零值。
•    CURLOPT_HEADER : 如果你想把一個頭包含在輸出中,設定這個選項為一個非零值。
•    CURLOPT_NOPROGRESS: 如果你不會PHP為CURL傳輸顯示一個程序條,設定這個選項為一個非零值。注意:PHP自動設定這個選項為非零值,你應該僅僅為了除錯的目的來改變這個選項。
•    CURLOPT_NOBODY : 如果你不想在輸出中包含body部分,設定這個選項為一個非零值。
•    CURLOPT_FAILONERROR : 如果你想讓PHP在發生錯誤(HTTP程式碼返回大於等於300)時,不顯示,設定這個選項為一人非零值。預設行為是返回一個正常頁,忽略程式碼。
•    CURLOPT_UPLOAD: 如果你想讓PHP為上傳做準備,設定這個選項為一個非零值。
•    CURLOPT_POST : 如果你想PHP去做一個正規的HTTP POST,設定這個選項為一個非零值。這個POST是普通的 application/x-www-from-urlencoded 型別,多數被HTML表單使用。
•    CURLOPT_FTPLISTONLY : 設定這個選項為非零值,PHP將列出FTP的目錄名列表。
•    CURLOPT_FTPAPPEND : 設定這個選項為一個非零值,PHP將應用遠端檔案代替覆蓋它。
•    CURLOPT_NETRC : 設定這個選項為一個非零值,PHP將在你的 ~./netrc 檔案中查詢你要建立連線的遠端站點的使用者名稱及密碼。
•    CURLOPT_FOLLOWLOCATION : 設定這個選項為一個非零值(象 “Location: “)的頭,伺服器會把它當做HTTP頭的一部分發送(注意這是遞迴的,PHP將傳送形如 “Location: “的頭)。
•    CURLOPT_PUT : 設定這個選項為一個非零值去用HTTP上傳一個檔案。要上傳這個檔案必須設定CURLOPT_INFILE和CURLOPT_INFILESIZE選項.
•    CURLOPT_MUTE : 設定這個選項為一個非零值,PHP對於CURL函式將完全沉默。
•    CURLOPT_TIMEOUT : 設定一個長整形數,作為最大延續多少秒。
•    CURLOPT_LOW_SPEED_LIMIT: 設定一個長整形數,控制傳送多少位元組。
•    CURLOPT_LOW_SPEED_TIME : 設定一個長整形數,控制多少秒傳送CURLOPT_LOW_SPEED_LIMIT規定的位元組數。
•    CURLOPT_RESUME_FROM : 傳遞一個包含位元組偏移地址的長整形引數,(你想轉移到的開始表單)。
•    CURLOPT_SSLVERSION: 傳遞一個包含SSL版本的長引數。預設PHP將被它自己努力的確定,在更多的安全中你必須手工設定。
•    CURLOPT_TIMECONDITION : 傳遞一個長引數,指定怎麼處理CURLOPT_TIMEVALUE引數。你可以設定這個引數為TIMECOND_IFMODSINCE 或 TIMECOND_ISUNMODSINCE。這僅用於HTTP。
•    CURLOPT_TIMEVALUE : 傳遞一個從1970-1-1開始到現在的秒數。這個時間將被CURLOPT_TIMEVALUE選項作為指定值使用,或被預設TIMECOND_IFMODSINCE使用。

下列選項的值將被作為字串:


•    CURLOPT_URL: 這是你想用PHP取回的URL地址。你也可以在用curl_init()函式初始化時設定這個選項。
•    CURLOPT_USERPWD : 傳遞一個形如[username]:[password]風格的字串,作用PHP去連線。
•    CURLOPT_PROXYUSERPWD : 傳遞一個形如[username]:[password] 格式的字串去連線HTTP代理。
•    CURLOPT_RANGE : 傳遞一個你想指定的範圍。它應該是”X-Y”格式,X或Y是被除外的。HTTP傳送同樣支援幾個間隔,用逗句來分隔(X-Y,N-M)。
•    CURLOPT_POSTFIELDS : 傳遞一個作為HTTP “POST”操作的所有資料的字串。
•    CURLOPT_REFERER: 在HTTP請求中包含一個”referer”頭的字串。
•    CURLOPT_USERAGENT : 在HTTP請求中包含一個”user-agent”頭的字串。
•    CURLOPT_FTPPORT: 傳遞一個包含被ftp “POST”指令使用的IP地址。這個POST指令告訴遠端伺服器去連線我們指定的IP地址。這個字串可以是一個IP地址,一個主機名,一個網路介面名(在UNIX下),或是‘-’(使用系統預設IP地址)。
•    CURLOPT_COOKIE : 傳遞一個包含HTTP cookie的頭連線。
•    CURLOPT_SSLCERT : 傳遞一個包含PEM格式證書的字串。
•    CURLOPT_SSLCERTPASSWD : 傳遞一個包含使用CURLOPT_SSLCERT證書必需的密碼。
•    CURLOPT_COOKIEFILE : 傳遞一個包含cookie資料的檔案的名字的字串。這個cookie檔案可以是Netscape格式,或是堆存在檔案中的HTTP風格的頭。
•    CURLOPT_CUSTOMREQUEST : 當進行HTTP請求時,傳遞一個字元被GET或HEAD使用。為進行DELETE或其它操作是有益的,更Pass a string to be used instead of GET or HEAD when doing an HTTP request. This is useful for doing or another, more obscure, HTTP request. 注意: 在確認你的伺服器支援命令先不要去這樣做。下列的選項要求一個檔案描述(通過使用fopen()函式獲得):
•    CURLOPT_FILE: 這個檔案將是你放置傳送的輸出檔案,預設是STDOUT.
•    CURLOPT_INFILE : 這個檔案是你傳送過來的輸入檔案。
•    CURLOPT_WRITEHEADER : 這個檔案寫有你輸出的頭部分。
•    CURLOPT_STDERR : 這個檔案寫有錯誤而不是stderr。用來獲取需要登入的頁面的例子,當前做法是每次或許都登入一次,有需要的人再做改進了.

例一:
$cookie_jar = tempnam('./tmp','cookie');
$ch = curl_init(); curl_setopt($ch,CURLOPT_URL, 'http://******');
curl_setopt($ch, CURLOPT_POST, 1);
$request = 'email_address=&password=&action=';
curl_setopt($ch, CURLOPT_POSTFIELDS, $request); //把返回來的cookie資訊儲存在$cookie_jar檔案中
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_jar); //設定返回的資料是否自動顯示
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //設定是否顯示頭資訊
curl_setopt($ch, CURLOPT_HEADER, false); //設定是否輸出頁面內容
curl_setopt($ch, CURLOPT_NOBODY, false);
curl_exec($ch);
curl_close($ch); //get data after login
例二:
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, 'http://*****');
curl_setopt($ch2, CURLOPT_HEADER, false);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch2, CURLOPT_COOKIEFILE, $cookie_jar);
$orders = curl_exec($ch2);
echo '';

echo strip_tags($orders);
echo '';
curl_close($ch2); 實踐證明很穩定:)
例三:
set_time_limit(0);
function _rand() {
$length=26;
$chars = "0123456789abcdefghijklmnopqrstuvwxyz";
$max = strlen($chars) - 1;
mt_srand((double)microtime() * 1000000);
$string = '';
for($i = 0; $i < $length; $i++) {
$string .= $chars[mt_rand(0, $max)];
}
return $string;
}
$HTTP_SESSION=_rand();
echo $HTTP_SESSION;
$HTTP_Server="www.baidu.com";
$HTTP_URL="/";
$ch = curl_init();
curl_setopt ($ch,CURLOPT_URL,"http://".$HTTP_Server.$HTTP_URL);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)");
//curl_setopt($ch,CURLOPT_COOKIE,$HTTP_SESSION);
$res = curl_exec($ch);
curl_close ($ch);
print_r($res);

刷論壇程式碼:
1、抓cookies程式:

$URL="http://www.yoururl.com/bbs/login.asp?action=chk";
//填入論壇的登陸頁面地址
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$URL);
curl_setopt($ch,CURLOPT_REFERER,"http://www.hxfoods.com/bbs/login.asp");
//設定,訪問頁面的來源地址

curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_POSTFIELDS,'username=→→敢死隊→&password=168168');
//分析登陸頁面,把使用者名稱,密碼分別對應起來
curl_setopt ($ch, CURLOPT_HEADER,true);
//使能顯示http頭,
curl_exec($ch);
if (curl_errno($ch))
{
print curl_error($ch);
}
else
{
curl_close($ch);
}

2、刷樓了:
set_time_limit(0);
//設定程式執行時間無限制
$i=10000;
//耍10000次
for($j=0;$j<$i;$j++)
{
$URL="http://www.yoururl.com/bbs/savepost.asp";
//這個地址是回覆表單裡面action的url地址
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$URL);
curl_setopt($ch,CURLOPT_REFERER,"http://www.hxfoods.com/bbs/dispbbs.asp?boardid=14&replyid=672709&id=127437&page=1&skin=0&Star=53");
//設定來源地址,如果不設定,論壇伺服器有可能有驗證不允許回覆
curl_setopt($ch,CURLOPT_COOKIESESSION,true);
//能儲存cookie
curl_setopt($ch,CURLOPT_COOKIE,"DvForum=userid=24122&usercookies=0&userhidden=2&password=w0reu3g775VrY745&userclass=%96%7C&username=%A1%FA%A1%FA%B8%D2%CB%C0%B6%D3%A1%FA&StatUserID=2194783945 ");
//這兒就是設定cookie了
curl_setopt($ch,CURLOPT_POST,1);
curl_setopt($ch,CURLOPT_NOBODY,1);
//不顯示內容,因為有很多論壇回覆後要自動跳轉。
curl_setopt($ch,CURLOPT_POSTFIELDS,'Body=gfdfgdfgasdfgdfgdfgdfg& followup=672709&RootID=127437&star=58&TotalUseTable=Dv_bbs3& amp;UserName=→→敢死隊→&signflag=1&total=65535');
//把你分析的回覆表單的引數分別賦值
curl_setopt ($ch, CURLOPT_HEADER,true);
curl_exec($ch);
if (curl_errno($ch))
{
print curl_error($ch);
}
else
{
curl_close($ch);
}
}
curl_close — 關閉一個curl會話
curl_copy_handle — 拷貝一個curl連線資源的所有內容和引數
curl_errno — 返回一個包含當前會話錯誤資訊的數字編號
curl_error — 返回一個包含當前會話錯誤資訊的字串
curl_exec — 執行一個curl會話
curl_getinfo — 獲取一個curl連線資源控制代碼的資訊
curl_init — 初始化一個curl會話
curl_multi_add_handle — 向curl批處理會話中新增單獨的curl控制代碼資源
curl_multi_close — 關閉一個批處理控制代碼資源
curl_multi_exec — 解析一個curl批處理控制代碼
curl_multi_getcontent — 返回獲取的輸出的文字流
curl_multi_info_read — 獲取當前解析的curl的相關傳輸資訊
curl_multi_init — 初始化一個curl批處理控制代碼資源
curl_multi_remove_handle — 移除curl批處理控制代碼資源中的某個控制代碼資源
curl_multi_select — Get all the sockets associated with the cURL extension, which can then be "selected"
curl_setopt_array — 以陣列的形式為一個curl設定會話引數
curl_setopt — 為一個curl設定會話引數
curl_version — 獲取curl相關的版本資訊
curl_init()函式的作用初始化一個curl會話,curl_init()函式唯一的一個引數是可選的,表示一個url地址。
curl_exec()函式的作用是執行一個curl會話,唯一的引數是curl_init()函式返回的控制代碼。
curl_close()函式的作用是關閉一個curl會話,唯一的引數是curl_init()函式返回的控制代碼。

$ch = curl_init("http://www.baidu.com/");
curl_exec($ch);
curl_close($ch);
curl_version()函式的作用是獲取curl相關的版本資訊,curl_version()函式有一個引數,不清楚是做什麼的

print_r(curl_version())
curl_getinfo()函式的作用是獲取一個curl連線資源控制代碼的資訊,curl_getinfo()函式有兩個引數,第一個引數是curl的資源控制代碼,第二個引數是下面一些常量:

$ch = curl_init("http://www.baidu.com/");
print_r(curl_getinfo($ch));
可選的常量包括:
CURLINFO_EFFECTIVE_URL
最後一個有效的url地址
CURLINFO_HTTP_CODE
最後一個收到的HTTP程式碼
CURLINFO_FILETIME
遠端獲取文件的時間,如果無法獲取,則返回值為“-1”
CURLINFO_TOTAL_TIME
最後一次傳輸所消耗的時間
CURLINFO_NAMELOOKUP_TIME
名稱解析所消耗的時間
CURLINFO_CONNECT_TIME
建立連線所消耗的時間
CURLINFO_PRETRANSFER_TIME
從建立連線到準備傳輸所使用的時間
CURLINFO_STARTTRANSFER_TIME
從建立連線到傳輸開始所使用的時間
CURLINFO_REDIRECT_TIME
在事務傳輸開始前重定向所使用的時間
CURLINFO_SIZE_UPLOAD
上傳資料量的總值
CURLINFO_SIZE_DOWNLOAD
下載資料量的總值
CURLINFO_SPEED_DOWNLOAD
平均下載速度
CURLINFO_SPEED_UPLOAD
平均上傳速度
CURLINFO_HEADER_SIZE
header部分的大小
CURLINFO_HEADER_OUT
傳送請求的字串
CURLINFO_REQUEST_SIZE
在HTTP請求中有問題的請求的大小
CURLINFO_SSL_VERIFYRESULT
Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER
CURLINFO_CONTENT_LENGTH_DOWNLOAD
從Content-Length: field中讀取的下載內容長度
CURLINFO_CONTENT_LENGTH_UPLOAD
上傳內容大小的說明
CURLINFO_CONTENT_TYPE
下載內容的“Content-type”值,NULL表示伺服器沒有傳送有效的“Content-Type: header”
curl_setopt()函式的作用是為一個curl設定會話引數。curl_setopt_array()函式的作用是以陣列的形式為一個curl設定會話引數。

$ch = curl_init();
$fp = fopen("example_homepage.txt", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
$options = array(
CURLOPT_URL => 'http://www.baidu.com/',
CURLOPT_HEADER => false
);
curl_setopt_array($ch, $options);
curl_exec($ch);
curl_close($ch);
fclose($fp);
可設定的引數有:
CURLOPT_AUTOREFERER
自動設定header中的referer資訊
CURLOPT_BINARYTRANSFER
在啟用CURLOPT_RETURNTRANSFER時候將獲取資料返回
CURLOPT_COOKIESESSION
啟用時curl會僅僅傳遞一個session cookie,忽略其他的cookie,預設狀況下curl會將所有的cookie返回給服務端。session cookie是指那些用來判斷伺服器端的session是否有效而存在的cookie。
CURLOPT_CRLF
啟用時將Unix的換行符轉換成回車換行符。
CURLOPT_DNS_USE_GLOBAL_CACHE
啟用時會啟用一個全域性的DNS快取,此項為執行緒安全的,並且預設為true。
CURLOPT_FAILONERROR
顯示HTTP狀態碼,預設行為是忽略編號小於等於400的HTTP資訊
CURLOPT_FILETIME
啟用時會嘗試修改遠端文件中的資訊。結果資訊會通過curl_getinfo()函式的CURLINFO_FILETIME選項返回。
CURLOPT_FOLLOWLOCATION
啟用時會將伺服器伺服器返回的“Location:”放在header中遞迴的返回給伺服器,使用CURLOPT_MAXREDIRS可以限定遞迴返回的數量。
CURLOPT_FORBID_REUSE
在完成互動以後強迫斷開連線,不能重用。
CURLOPT_FRESH_CONNECT
強制獲取一個新的連線,替代快取中的連線。
CURLOPT_FTP_USE_EPRT
TRUE to use EPRT (and LPRT) when doing active FTP downloads. Use FALSE to disable EPRT and LPRT and use PORT only.
Added in PHP 5.0.0.
CURLOPT_FTP_USE_EPSV
TRUE to first try an EPSV command for FTP transfers before reverting back to PASV. Set to FALSE to disable EPSV.
CURLOPT_FTPAPPEND
TRUE to append to the remote file instead of overwriting it.
CURLOPT_FTPASCII
An alias of CURLOPT_TRANSFERTEXT. Use that instead.
CURLOPT_FTPLISTONLY
TRUE to only list the names of an FTP directory.
CURLOPT_HEADER
啟用時會將標頭檔案的資訊作為資料流輸出。
CURLOPT_HTTPGET
啟用時會設定HTTP的method為GET,因為GET是預設是,所以只在被修改的情況下使用。
CURLOPT_HTTPPROXYTUNNEL
啟用時會通過HTTP代理來傳輸。
CURLOPT_MUTE
講curl函式中所有修改過的引數恢復預設值。
CURLOPT_NETRC
在連線建立以後,訪問~/.netrc檔案獲取使用者名稱和密碼資訊連線遠端站點。
CURLOPT_NOBODY
啟用時將不對HTML中的body部分進行輸出。
CURLOPT_NOPROGRESS
啟用時關閉curl傳輸的進度條,此項的預設設定為true
CURLOPT_NOSIGNAL
啟用時忽略所有的curl傳遞給php進行的訊號。在SAPI多執行緒傳輸時此項被預設開啟。
CURLOPT_POST
啟用時會發送一個常規的POST請求,型別為:application/x-www-form-urlencoded,就像表單提交的一樣。
CURLOPT_PUT
啟用時允許HTTP傳送檔案,必須同時設定CURLOPT_INFILE和CURLOPT_INFILESIZE
CURLOPT_RETURNTRANSFER
講curl_exec()獲取的資訊以檔案流的形式返回,而不是直接輸出。
CURLOPT_SSL_VERIFYPEER
FALSE to stop cURL from verifying the peer's certificate. Alternate certificates to verify against can be specified with the CURLOPT_CAINFO option or a certificate directory can be specified with the CURLOPT_CAPATH option. CURLOPT_SSL_VERIFYHOST may also need to be TRUE or FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2). TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10.
CURLOPT_TRANSFERTEXT
TRUE to use ASCII mode for FTP transfers. For LDAP, it retrieves data in plain text instead of HTML. On Windows systems, it will not set STDOUT to binary mode.
CURLOPT_UNRESTRICTED_AUTH
在使用CURLOPT_FOLLOWLOCATION產生的header中的多個locations中持續追加使用者名稱和密碼資訊,即使域名已發生改變。
CURLOPT_UPLOAD
啟用時允許檔案傳輸
CURLOPT_VERBOSE
啟用時會彙報所有的資訊,存放在STDERR或指定的CURLOPT_STDERR中
CURLOPT_BUFFERSIZE
每次獲取的資料中讀入快取的大小,這個值每次都會被填滿。
CURLOPT_CLOSEPOLICY
不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,還存在另外三個,但是curl暫時還不支援。.
CURLOPT_CONNECTTIMEOUT
在發起連線前等待的時間,如果設定為0,則不等待。
CURLOPT_DNS_CACHE_TIMEOUT
設定在記憶體中儲存DNS資訊的時間,預設為120秒。
CURLOPT_FTPSSLAUTH
The FTP authentication method (when is activated): CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide).
CURLOPT_HTTP_VERSION
設定curl使用的HTTP協議,CURL_HTTP_VERSION_NONE(讓curl自己判斷),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1)
CURLOPT_HTTPAUTH
使用的HTTP驗證方法,可選的值 有:CURLAUTH_BASIC,CURLAUTH_DIGEST,CURLAUTH_GSSNEGOTIATE,CURLAUTH_NTLM,CURLAUTH_ANY,CURLAUTH_ANYSAFE, 可以使用“|”操作符分隔多個值,curl讓伺服器選擇一個支援最好的值,CURLAUTH_ANY等價於CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等價於CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM
CURLOPT_INFILESIZE
設定上傳檔案的大小
CURLOPT_LOW_SPEED_LIMIT
當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根據CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸。
CURLOPT_LOW_SPEED_TIME
The number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT for PHP to consider the transfer too slow and abort.
當傳輸速度小於CURLOPT_LOW_SPEED_LIMIT時,PHP會根據CURLOPT_LOW_SPEED_TIME來判斷是否因太慢而取消傳輸。
CURLOPT_MAXCONNECTS
允許的最大連線數量,超過是會通過CURLOPT_CLOSEPOLICY決定應該停止哪些連線
CURLOPT_MAXREDIRS
指定最多的HTTP重定向的數量,這個選項是和CURLOPT_FOLLOWLOCATION一起使用的。
CURLOPT_PORT
一個可選的用來指定連線埠的量
CURLOPT_PROXYAUTH
The HTTP authentication method(s) to use for the proxy connection. Use the same bitmasks as described in CURLOPT_HTTPAUTH. For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported.
CURLOPT_PROXYPORT
The port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY.
CURLOPT_PROXYTYPE
Either CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5.
CURLOPT_RESUME_FROM
在恢復傳輸時傳遞一個位元組偏移量(用來斷點續傳)
CURLOPT_SSL_VERIFYHOST
1 to check the existence of a common name in the SSL peer certificate.
2 to check the existence of a common name and also verify that it matches the hostname provided.
CURLOPT_SSLVERSION
The SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually.
CURLOPT_TIMECONDITION
如果在CURLOPT_TIMEVALUE指定的某個時間以後被編輯過,則使用CURL_TIMECOND_IFMODSINCE返回頁面,如果沒有被修 改過,並且CURLOPT_HEADER為true,則返回一個"304 Not Modified"的header,CURLOPT_HEADER為false,則使用CURL_TIMECOND_ISUNMODSINCE,預設值為 CURL_TIMECOND_IFMODSINCE
CURLOPT_TIMEOUT
設定curl允許執行的最長秒數
CURLOPT_TIMEVALUE
設定一個CURLOPT_TIMECONDITION使用的時間戳,在預設狀態下使用的是CURL_TIMECOND_IFMODSINCE
CURLOPT_CAINFO
The name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER.
CURLOPT_CAPATH
A directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER.
CURLOPT_COOKIE
設定HTTP請求中“Set-Cookie:”部分的內容。
CURLOPT_COOKIEFILE
包含cookie資訊的檔名稱,這個cookie檔案可以是Netscape格式或者HTTP風格的header資訊。
CURLOPT_COOKIEJAR
連線關閉以後,存放cookie資訊的檔名稱
CURLOPT_CUSTOMREQUEST
A custom request method to use instead of "GET" or "HEAD" when doing a HTTP request. This is useful for doing "DELETE" or other, more obscure HTTP requests. Valid values are things like "GET", "POST", "CONNECT" and so on; i.e. Do not enter a whole HTTP request line here. For instance, entering "GET /index.html HTTP/1.0\r\n\r\n" would be incorrect.
Note: Don't do this without making sure the server supports the custom request method first.
CURLOPT_EGBSOCKET
Like CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket.
CURLOPT_ENCODING
header中“Accept-Encoding: ”部分的內容,支援的編碼格式為:"identity","deflate","gzip"。如果設定為空字串,則表示支援所有的編碼格式
CURLOPT_FTPPORT
The value which will be used to get the IP address to use for the FTP "POST" instruction. The "POST" instruction tells the remote server to connect to our specified IP address. The string may be a plain IP address, a hostname, a network interface name (under Unix), or just a plain '-' to use the systems default IP address.
CURLOPT_INTERFACE
在外部網路介面中使用的名稱,可以是一個介面名,IP或者主機名。
CURLOPT_KRB4LEVEL
KRB4(Kerberos 4)安全級別的設定,可以是一下幾個值之一:"clear","safe","confidential","private"。預設的值 為"private",設定為null的時候表示禁用KRB4,現在KRB4安全僅能在FTP傳輸中使用。
CURLOPT_POSTFIELDS
在HTTP中的“POST”操作。如果要傳送一個檔案,需要一個@開頭的檔名
CURLOPT_PROXY
設定通過的HTTP代理伺服器
CURLOPT_PROXYUSERPWD
連線到代理伺服器的,格式為“[username]:[password]”的使用者名稱和密碼。
CURLOPT_RANDOM_FILE
設定存放SSL用到的隨機數種子的檔名稱
CURLOPT_RANGE
設定HTTP傳輸範圍,可以用“X-Y”的形式設定一個傳輸區間,如果有多個HTTP傳輸,則使用逗號分隔多個值,形如:"X-Y,N-M"。
CURLOPT_REFERER
設定header中"Referer: " 部分的值。
CURLOPT_SSL_CIPHER_LIST
A list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists.
CURLOPT_SSLCERT
傳遞一個包含PEM格式證書的字串。
CURLOPT_SSLCERTPASSWD
傳遞一個包含使用CURLOPT_SSLCERT證書必需的密碼。
CURLOPT_SSLCERTTYPE
The format of the certificate. Supported formats are "PEM" (default), "DER", and "ENG".
CURLOPT_SSLENGINE
The identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY.
CURLOPT_SSLENGINE_DEFAULT
The identifier for the crypto engine used for asymmetric crypto operations.
CURLOPT_SSLKEY
The name of a file containing a private SSL key.
CURLOPT_SSLKEYPASSWD
The secret password needed to use the private SSL key specified in CURLOPT_SSLKEY.
Note: Since this option contains a sensitive password, remember to keep the PHP script it is contained within safe.
CURLOPT_SSLKEYTYPE
The key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are "PEM" (default), "DER", and "ENG".
CURLOPT_URL
需要獲取的URL地址,也可以在PHP的curl_init()函式中設定。
CURLOPT_USERAGENT
在HTTP請求中包含一個”user-agent”頭的字串。
CURLOPT_USERPWD
傳遞一個連線中需要的使用者名稱和密碼,格式為:“[username]:[password]”。
CURLOPT_HTTP200ALIASES
設定不再以error的形式來處理HTTP 200的響應,格式為一個數組。
CURLOPT_HTTPHEADER
設定一個header中傳輸內容的陣列。
CURLOPT_POSTQUOTE
An array of FTP commands to execute on the server after the FTP request has been performed.
CURLOPT_QUOTE
An array of FTP commands to execute on the server prior to the FTP request.
CURLOPT_FILE
設定輸出檔案的位置,值是一個資源型別,預設為STDOUT (瀏覽器)。
CURLOPT_INFILE
在上傳檔案的時候需要讀取的檔案地址,值是一個資源型別。
CURLOPT_STDERR
設定一個錯誤輸出地址,值是一個資源型別,取代預設的STDERR。
CURLOPT_WRITEHEADER
設定header部分內容的寫入的檔案地址,值是一個資源型別。
CURLOPT_HEADERFUNCTION
設定一個回撥函式,這個函式有兩個引數,第一個是curl的資源控制代碼,第二個是輸出的header資料。header資料的輸出必須依賴這個函式,返回已寫入的資料大小。
CURLOPT_PASSWDFUNCTION
設定一個回撥函式,有三個引數,第一個是curl的資源控制代碼,第二個是一個密碼提示符,第三個引數是密碼長度允許的最大值。返回密碼的值。
CURLOPT_READFUNCTION
設定一個回撥函式,有兩個引數,第一個是curl的資源控制代碼,第二個是讀取到的資料。資料讀取必須依賴這個函式。返回讀取資料的大小,比如0或者EOF。
CURLOPT_WRITEFUNCTION
設定一個回撥函式,有兩個引數,第一個是curl的資源控制代碼,第二個是寫入的資料。資料寫入必須依賴這個函式。返回精確的已寫入資料的大小
curl_copy_handle()函式的作用是拷貝一個curl連線資源的所有內容和引數

$ch = curl_init("http://www.baidu.com/");
$another = curl_copy_handle($ch);
curl_exec($another);
curl_close($another);
curl_error()函式的作用是返回一個包含當前會話錯誤資訊的字串。
curl_errno()函式的作用是返回一個包含當前會話錯誤資訊的數字編號。
curl_multi_init()函式的作用是初始化一個curl批處理控制代碼資源。
curl_multi_add_handle()函式的作用是向curl批處理會話中新增單獨的curl控制代碼資源。curl_multi_add_handle()函式有兩個引數,第一個引數表示一個curl批處理控制代碼資源,第二個引數表示一個單獨的curl控制代碼資源。
curl_multi_exec()函式的作用是解析一個curl批處理控制代碼,curl_multi_exec()函式有兩個引數,第一個引數表示一個批處理控制代碼資源,第二個引數是一個引用值的引數,表示剩餘需要處理的單個的curl控制代碼資源數量。
curl_multi_remove_handle()函式表示移除curl批處理控制代碼資源中的某個控制代碼資源,curl_multi_remove_handle()函式有兩個引數,第一個引數表示一個curl批處理控制代碼資源,第二個引數表示一個單獨的curl控制代碼資源。
curl_multi_close()函式的作用是關閉一個批處理控制代碼資源。

$ch1 = curl_init();
$ch2 = curl_init();
curl_setopt($ch1, CURLOPT_URL, "http://www.baidu.com/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.google.com/");
curl_setopt($ch2, CURLOPT_HEADER, 0);
$mh = curl_multi_init();
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);
do {
curl_multi_exec($mh,$flag);
} while ($flag > 0);
curl_multi_remove_handle($mh,$ch1);
curl_multi_remove_handle($mh,$ch2);
curl_multi_close($mh);
curl_multi_getcontent()函式的作用是在設定了CURLOPT_RETURNTRANSFER的情況下,返回獲取的輸出的文字流。
curl_multi_info_read()函式的作用是獲取當前解析的curl的相關傳輸資訊。
curl_multi_select()
Get all the sockets associated with the cURL extension, which can then be "selected"

相關推薦

Error 403: Forbidden 錯誤網站禁止爬蟲

HTTP request sent, awaiting response... 403 Forbidden 2014-09-06 00:53:22 ERROR 403: Forbidden Error 403: Forbidden錯誤是由於網站禁止爬蟲,可以在請求加上頭資

python3 HTTP Error 403:Forbidden網站爬蟲做了限制)

一般當你的爬蟲程式爬起來以後,出現這種情況就是因為你要爬取的網站對爬蟲進行了限制。 真小氣!!! 直接用火狐瀏覽器去檢視他的User-Agent就可以了 然後: def getHtml(url):    headers={'User-Agent':'Mozilla/5

urllib.error.HTTPError: HTTP Error 403: Forbidden錯誤引發的原因

urllib.error.HTTPError: HTTP Error 403: Forbidden urllib.error。HTTP錯誤403:禁止 引發這樣的錯誤是因為,被爬的網址不允許沒有標頭檔案 因此讓伺服器拒絕訪問,這是隻需要加上頭部就可以繼續訪問了,也就是模擬以瀏覽器的方

Error 403--Forbidden錯誤

  在一個專案中遇到了如下的問題,網上狂搜索,沒找到產生的原因,還是自己研究吧,最後終於找到了原因:專案的web伺服器是Apache+weblogic,apache負責處理靜態頁面,由於apache要處理的首頁檔案index.html不知什麼原因丟失,所有出現瞭如下的錯誤,再

網站出現403 Forbidden錯誤的原因以及怎麼解決的方法

這幾天剛接手一批新做的網站,在訪問網站的時候,會時不時的出現403 Forbidden錯誤,瀏覽器會給出403 Forbidden錯誤提示,在開啟Access Error中列出的URL之後, 出現以下錯誤: 403 Forbidden Access to this resource

解決github push錯誤The requested URL returned error: 403 Forbidden while accessing

github push錯誤: git push error: The requested URL returned error: 403 Forbidden while accessing https://github.com/wangz/future

Wamp2.5(Apache2.4.9)外網訪問403(Forbidden)錯誤

his 403錯誤 require director off nat from 原因 spa 把wamp配置到Azure上之後,倒騰好久都沒有解決403錯誤問題,網上百度了很多資料,差不多都是這樣修改的: 1、在C:wamp/bin/apache/apache2.4.9/c

nginx “403 Forbidden錯誤的原因及解決辦法

所有 html 網上 查找 lan href 原因 我沒 分配 ————————————————————————————————首先 錯誤的原因及解決辦法 ———————————————————————————————————————————————————— ng

git推送到github報錯:error: The requested URL returned error: 403 Forbidden while accessing https://github.com

rep 發的 rac adc lob hub sta stat forward 最近使用git命令從github克隆倉庫到版本,然後進行提交到github時報錯如下: [[email protected]/* */ git_test]# git push ori

urllib2.HTTPError: HTTP Error 403: Forbidden 解決方法

error ack mac int ins com Language gzip ces 參考: https://stackoverflow.com/questions/13303449/urllib2-httperror-http-error-403-forbidden

訪問網時出現403 Forbidden錯誤的原因:

csu 用戶 網址 class 目錄 火墻 body best b- 1.你的IP被列入黑名單。2.你在一定時間內過多地訪問此網站(一般是用采集程序),被防火墻拒絕訪問了。3.網站域名解析到了空間,但空間未綁定此域名。4.你的網頁腳本文件在當前目錄下沒有執行權限。5.在不允

Apache 2.4.27外網訪問403(Forbidden)錯誤

option www conf vhosts rom orb symlink cal 4.2 httpd.conf <Directory /> AllowOverride none #Require all denied 註釋這句 Allow

Python "HTTP Error 403: Forbidden"

訪問 elf .py span ade line eth turn sel 問題: 執行下面的語句時 1 def set_IPlsit(): 2 url = ‘https://www.whatismyip.com/‘ 3 response = urllib

nginx代理 wso2esb 出現 Error 403 - Forbidden

nginx wso2esb 403Error 403 - Forbidden 截圖: 關鍵配置: listen 80; listen 443 ssl; ssl_certificate certs/21405949

python3 HTTP Error 403:Forbidden

問題描述 初學python,在用python中的urllib.request.urlopen()和urllib.request.urlretrieve方法開啟網頁時,有些網站會丟擲異常: HTTP Er

nginx 403 Forbidden錯誤的原因和解決方法

問題總是等著自己去解決,剛弄了下nginx開機自啟動和開機禁用防火牆,可是在瀏覽器訪問卻報了403 Forbidden錯誤。 檢視錯誤日誌,發現是許可權不足導致的。 [[email protected] logs]# cat error.log

Apache整合Tomcat報403 Forbidden錯誤

錯誤如圖所示: 以前在做整合的時候都是很順利的通過了,沒有任何問題。這幾天閒著無聊,把Apache(2.4)和Tomcat(7.0.32)都更新到了最新版本,並且安裝配置了對應版本的mod_jk。Apache和Tomcat都可以正常啟動,也都可以單獨執行,不幸的是,每次通

mnist = input_data.read_data_sets('MNIST_data', one_hot=True)報錯: HTTP Error 403: Forbidden

使用的是pycharm。 報錯資訊如圖所示: 分析: 一般來說HTTP Error 403: Forbidden是因為爬蟲被限制,解釋一下為什麼會報關於url的錯。 from tensorflow.examples.tutorials.mnist i

weblogic部署的web應用,開啟報錯Error 403--Forbidden

Error 403--Forbidden From RFC 2068 Hypertext Transfer Protocol -- HTTP/1.1: 10.4.4 403 Forbidden The server understood the request, but is refusing to

開啟站點時顯示“HTTP 403Forbidden錯誤的解決方案

今天遇到客戶反饋SharePoint網站無法開啟,提示“HTTP 403 – Forbidden”錯誤。 驗證發現並不只是一個站點,是webApplication下的所有站點都打不開,顯示一樣