通過python 爬取網址url 自動提交百度

阿新 • • 發佈：2018-06-06

bad 如果 ucc pen remove get jpg res num

通過python 爬取網址url 自動提交百度

技術分享圖片

昨天同事說，可以手動提交百度這樣索引量會上去。

然後想了下。是不是應該弄一個py 然後自動提交呢？想了下。還是弄一個把

python 代碼如下：

import os  
import re  
import shutil  
  
REJECT_FILETYPE = ‘rar,7z,css,js,jpg,jpeg,gif,bmp,png,swf,exe‘ #定義爬蟲過程中不下載的文件類型
  
def getinfo(webaddress):   #‘#通過用戶輸入的網址連接上網絡協議，得到URL我這裏是我自己的域名 

    global REJECT_FILETYPE  
    url = ‘http://‘+webaddress+‘/‘  #網址的url地址
    print ‘Getting>>>>> ‘+url
    websitefilepath = os.path.abspath(‘.‘)+‘/‘+webaddress   #通過函數os.path.abspath得到當前程序所在的絕對路徑，然後搭配用戶所輸入的網址得到用於存儲下載網頁的文件夾  
    if os.path.exists(websitefilepath):   #如果此文件夾已經存在就將其刪除，原因是如果它存在，那麽爬蟲將不成功   

        shutil.rmtree(websitefilepath)     #shutil.rmtree函數用於刪除文件夾（其中含有文件） 
    outputfilepath = os.path.abspath(‘.‘)+‘/‘+‘output.txt‘   #在當前文件夾下創建一個過渡性質的文件output.txt  
    fobj = open(outputfilepath,‘w+‘)  
    command = ‘wget -r -m -nv --reject=‘+REJECT_FILETYPE+‘ -o ‘+outputfilepath+‘ ‘+url  # 
利用wget命令爬取網站
    tmp0 = os.popen(command).readlines()  #函數os.popen執行命令並且將運行結果存儲在變量tmp0中
    print >> fobj,tmp0  #寫入output.txt中  
    allinfo = fobj.read()
    target_url = re.compile(r‘\".*?\"‘,re.DOTALL).findall(allinfo)  #通過正則表達式篩選出得到的網址 
    print  target_url
    target_num = len(target_url)  
    fobj1 = open(‘result.txt‘,‘w‘)     #在本目錄下創建一個result.txt文件，裏面存儲最終得到的內容
    for i in range(target_num):
        if len(target_url[i][1:-1])<70:   # 這個target_url 是一個字典形式的，如果url 長度大於70 就不會記錄到裏面
           print >> fobj1,target_url[i][1:-1]     #寫入到文件中
        else:  
          print "NO"
    fobj.close()  
    fobj1.close()  
    if os.path.exists(outputfilepath):  #將過渡文件output.txt刪除  
        os.remove(outputfilepath)  #刪除
   
if __name__=="__main__":  
    webaddress = raw_input("Input the Website Address(without \"http:\")>")  
    getinfo(webaddress)  
    print "Well Done."

執行完之後就會有如下url

技術分享圖片

再弄一個主動提交的腳本，我進入百度錄入的網址找到自己提交的地址

技術分享圖片

寫了一個垃圾腳本，本來想融入到py中。但是想了下，還是別了

[root@iz2zej11i9rkbm4yvq43laz script]# cat baiduurl.sh 
cd /script && curl -H ‘Content-Type:text/plain‘ --data-binary @result.txt  "http://data.zz.baidu.com/urls?site=https://www.o2oxy.cn&token=P03781O3s6Ee"
 && curl -H ‘Content-Type:text/plain‘ --data-binary @result.txt  "http://data.zz.baidu.com/urls?site=https://www.o2oxy.cn&token=P03781O3s6E"

執行結果如下：

[root@iz2zej11i9rkbm4yvq43laz script]# sh baiduurl.sh 
{"remain":4993750,"success":455}{"remain":4993295,"success":455}

然後做了一個計劃任務

技術分享圖片

執行一下。獲取網址url 比較慢，可能十分鐘把

技術分享圖片

唔。完美！！！！！

技術分享圖片

通過python 爬取網址url 自動提交百度

bad 如果 ucc pen remove get jpg res num 通過python 爬取網址url 自動提交百度昨天同事說，可以手動提交百度這樣索引量會上去。然後想了下。是不是應該弄一個py 然後自動提交呢？想了下。還是弄一個把 python 代

通過Python爬取了B站兩千萬用戶資料！險些出事！最好不要商用！

1 前言前兩天閒來無事，花了四五天的時間從B站（bilibili.com）抓取了其 2000萬全部使用者。 2 使用者情況 B站是一個ACG動漫文化很濃厚的場所，與A站（AcFun）共同撐起了中國動漫的一片天。所以使用者嘛…… 不說了，簡單看看我隨便

python requests庫網頁爬取小實例：百度/360搜索關鍵詞提交

ext aid col text () status exc print 爬取百度/360搜索關鍵詞提交全代碼： #百度/360搜索關鍵詞提交import requestskeyword=‘Python‘try: 　　#百度關鍵字　　# kv={‘w

python 爬取百度url

style not 域名 head dex fin compile threads www 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

Python 爬取qqmusic音樂url並批量下載

QQ col expr IE filename 代碼都是 sles () 　qqmusic上的音樂還是不少的，有些時候想要下載好聽的音樂，但有每次在網頁下載都是煩人的登錄什麽的。於是，來了個qqmusic的爬蟲。　　至少我覺得for循環爬蟲，最核心的應該就是找到待爬元

scrapy通過自定義類給爬取的url去重

之前我們是通過在parse函式裡設定集合來解決url去重的問題。首先先在根目錄中建立一個新的duplication的py檔案，在from scrapy.dupefilter import RFPDupeFilter，在RFPDupeFilter原始碼中把BaseDupeFilter類複製到新建

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

python3爬取qq音樂並下載 Python 爬取qqmusic音樂url並批量下載

本文參考Python 爬取qqmusic音樂url並批量下載同學找我爬取一下qq音樂播放連結，包括歌詞等資訊打包成json，試了一下可以爬取。一、找到qq音樂播放的url 1.找到搜尋頁面返回的資料包歌曲最終的播放連結時經過多次拼接的，首先找到qq音樂搜尋歌曲介面，https://y.qq.

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

Python爬取黑龍江科技大學URL教務網站

這個小東西從去年的寒假開始寫，直到現在才寫完，就是因為自己太懶了，不愛寫大概的框架是用urllib庫中的requests寫的，本來想用scrapy來寫的，但是scrapy庫沒有安裝好,所以只能用前者來寫。其實requests庫還是很方便的。主要用來做POST請求。

python爬取知乎專欄文章標題及URL

# -*- coding:utf-8 -*- from selenium import webdriver import time # 執行程式要安裝selenium模組，並下載Chrome瀏覽器驅動

Python爬取微博的評論人的微博網址

這次爬取微博以手機客戶端為主。開啟手機客戶端的微博連結為 https://m.weibo.cn 進入微博後，隨機找到評論多的為例。比如搜尋鹿晗。爬取評論鹿晗的評論人的微博網址開啟F12控制檯，點選網路，重新整理頁面往下滑，在控制檯出現一些資料，找到資料型別為jso

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

python 爬取知網url

由於知網存在非同步載入，爬取需要獲得queryid，cookies等程式碼如下： #coding:utf-8 ''' Created on 2016-8-15 @author: 劉帥 ''' import urllib2 from bs4 impor

python爬取百度新聞所有的新聞的前1頁標題和URL地址

這是我自己寫的一個爬取百度新聞的一個程式碼，歡迎大家多來討論，謝謝！(自己已經測試可以使用，在文章最後見效果圖) ''' re模板：2.2.1 requests模板：2.18.4 bs4模板：4.

通過抓取淘寶評論為例講解Python爬取ajax動態生成的資料

'https://rate.taobao.com/feedRateList.htm?auctionNumId=538039793643&userNumId=2779992133&currentPageNum=6&pageSize=20&rateType=&orderTy

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

通過python 爬取網址url 自動提交百度

通過python 爬取網址url 自動提交百度

相關推薦