【百度爬蟲系列 III】深度搜索(給定網址採集全部url)

阿新 • • 發佈：2019-01-10

目的

給定網址，以及儲存檔案，將該網頁內全部網址採集下，可指定檔案儲存。

思路

用lxml解析工具解析請求的文字，分析網頁中url在的位置以及標籤會出現三種情況：

通過href獲取的格式正確的url。
通過href獲取的為”javascript”開頭的，跳過。

程式碼

#coding:utf-8
# 網頁url採集爬蟲，給定網址，以及儲存檔案，將該網頁內全部網址採集下，可指定檔案儲存方式
#[email protected] 許娜
#os    : ubuntu16.04
#python: python2
import requests,time
from 
 lxml import etree
"""
    url:給定的url
    save_file_name:為url儲存檔案
"""
def Redirect(url):
    try:
        res = requests.get(url,timeout=10)
        url = res.url
    except Exception as e:
        print("4",e)
        time.sleep(1)
    return url

def requests_for_url(url, save_file_name, file_model) 
:
    headers = {
        'pragma': "no-cache",
        'accept-encoding': "gzip, deflate, br",
        'accept-language': "zh-CN,zh;q=0.8",
        'upgrade-insecure-requests': "1",
        'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" 
,
        'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
        'cache-control': "no-cache",
        'connection': "keep-alive",
        }
    try:
        response = requests.request("GET", url, headers=headers)
        selector = etree.HTML(response.text, parser=etree.HTMLParser(encoding='utf-8'))
    except Exception as e:
        print ("頁面載入失敗", e)
    return_set = set()
    with open(save_file_name,file_model) as f:
        try:
            context = selector.xpath('//a/@href')
            for i in context:
                try:
                    if i[0] == "j":
                        continue
                    if i[0] == "/":
                        print i
                        i = url+i.replace("/","");
                    f.write(i)
                    f.write("\n")
                    return_set.add(i)                                     
                    print(len(context),context[0],i)
                except Exception as e:
                    print("1",e)
        except Exception as e:
            print("2",e)
    return return_set


if __name__ == '__main__':
     # 網頁url採集爬蟲，給定網址，以及儲存檔案，將該網頁內全部網址採集下，可指定檔案儲存方式
     url = "http://news.baidu.com/"
     save_file_name = "save_url_2.txt"
     return_set = requests_for_url(url,save_file_name,"a") #“a”:追加
     print(len(return_set))

【百度爬蟲系列 III】深度搜索(給定網址採集全部url)

目的給定網址，以及儲存檔案，將該網頁內全部網址採集下，可指定檔案儲存。思路用lxml解析工具解析請求的文字，分析網頁中url在的位置以及標籤會出現三種情況：通過href獲取的格式正確的url。通過href獲取的為”javas

【百度之星資格賽】F:百科蝌蚪團

時間限制: 1000ms 記憶體限制: 65536kB 描述百度百科有一支神奇的隊伍，他們叫自己“百科蝌蚪團”。為了更好的讓蝌蚪團的成員們安排工作，百度百科的運營團隊定出了一個24小時制的時間表。例如： 1. 每個蝌蚪團成員工作時長相同； 2. 必須安排蝌蚪團成員在

【百度、高德】模仿房產酒店網站——自定義標註視窗

功能亮點：自定義標註地理座標批量marker支援高德，百度無Key也能用發表點拙見。高德的地圖跟隨移動不夠好。但是窗體陰影效果很炫。百度的移動很合理。窗體介面功能單一。貼上高德程式碼，百度的程式碼具體實現參考酸奶小妹的部落格 <!DOCTYPE htm

【百度語音rest API】文字轉換成語音，以及語音轉化成文字

通過rest API，呼叫百度語音介面，將其接入智慧客服。百度語音:http://ai.baidu.com/docs/#/ASR-API/top #!/usr/bin/python3 import urllib.request import urllib import

如何讓自己在天貓開通的商鋪能夠在百度中輸入關鍵詞就能夠搜索到

方法做廣告天貓同時設計小店搜索站點基本如何讓自己在天貓開通的商鋪能夠在百度中輸入關鍵詞就能夠搜索到需要時間. 搜索引擎,收錄網站. 是慢慢刷的. 過久了. 你的店應該就會有了的. 你也可以申請百度收錄你的網站! 做好的網店，如何缺少了宣傳，那就等於是“養

清法網絡：百度seo做好了，其他搜索引擎也會有排名嗎

src one ces sha 多人 color -o 問題：一個 seo的工作，主要是研究搜索引擎的喜好和規律，將想要的內容呈現在搜索引擎合適的位置。很多seo初學者會有這麽一個認知：“做seo就是做百度關鍵詞優化”，這個觀點，在上海seo企業網站優化公司清法網絡看來，

【百度飛漿AI Studio】2、感性快速體驗深度學習的線性歸回預測房價

百度學習原文地址： https://www.paddlepaddle.org.cn/documentation/docs/zh/1

【百度圖表】頁面引入多個圖表，讓其只適應

++ i++ top color win setoption 實例 get logs 【百度圖表】頁面引入多個圖表，讓其只適應網上發現有個這樣的方法讓圖表自適應，window.onresize = myChart.resize; 但是發現好像只有最後一個有效，於是就有了

【百度搜索框】

add size nts on() post 百度搜索 aid style left html樣式 <div class="img"></div> <div class="yi"> <input type="text" id

【百度AR】【Android】demo工程使用手記

AR【百度AR】【Android】demo工程使用手記 demo工程獲取和註意事項百度AR平臺地址：https://ar.baidu.com/testapply 技術文檔地址：https://ai.baidu.com/docs#/DuMixAR-Android-SDK/top AR內容管理地址：https

【2018百度之星資格賽】 A 問卷調查 - 位運算&動規

blog 題目相同 clas 方程數組 cstring div col 題目地址：http://bestcoder.hdu.edu.cn/contests/contest_showproblem.php?cid=820&pid=1001 參考博客：在此感謝ht

【百度雲破解】Aria2GUI使用教程

兩個工具： Aria2GUI 下載地址 Aria2GUI Chrome外掛下載地址 Chrome外掛設定：下載後文件解壓一下，開啟chrome瀏覽器-》更多工具-》擴充套件程式，直接將資料夾拖入即可；下面為成功例項先開啟Aria2GUI, 找到自己網盤對應資源介面，重新整理

【百度】大型網站的HTTPS實踐（一）——HTTPS協議和原理

大型網站的HTTPS實踐（一）——HTTPS協議和原理原創網路通訊/物聯網作者：AIOps智慧運維時間：2018-11-09 15:07:39 349 0 前言

【深度相機系列三】深度相機原理揭祕--雙目立體視覺

本文已經首發在個人微信公共號：計算機視覺life（微訊號CV_life），歡迎關注！導讀為什麼非得用雙目相機才能得到深度？雙目立體視覺深度相機的工作流程雙目立體視覺深度相機詳細工作原理 &

【百度】大型網站的HTTPS實踐（二）——HTTPS加密演算法介紹

大型網站的HTTPS實踐（二）——HTTPS加密演算法介紹原創網路通訊/物聯網作者：AIOps智慧運維時間：2018-11-09 15:09:43 358 0 前言

【百度】大型網站的HTTPS實踐（三）——HTTPS對效能的影響

HTTPS在保護使用者隱私，防止流量劫持方面發揮著非常關鍵的作用，但與此同時，HTTPS也會降低使用者訪問速度，增加網站伺服器的計算資源消耗。本文主要介紹HTTPS對效能的影響。 HTTPS對訪問速度的影響在介紹速度優化策略之前，先來看下HTTPS對速度有什麼影響。影響主要來自兩方面：協議互動所增加的網

【百度地圖】百度地圖指定省市進行描邊處理，省市外進行半透明遮蓋。

//指定省市進行描邊處理，省市外進行半透明遮蓋。 function getBoundary2(map,city){ var bdary = new BMap.Boundary(); bdary.get(city, function(rs){//獲取行政區域

【百度地圖】在百度地圖上框出邊界線

程式碼：一、建立地圖建立地圖物件；設立中心點以及地圖級別。 var map = new BMap.Map("container"); map.centerAndZoom(new BMap.Point(116.403765, 39.914850), 12); 二、新增地圖事件

Ruby環境搭建，附【百度網盤分享連結，不用擔心下載慢哦！】

首先要下載，下載地址：https://rubyinstaller.org/downloads/ 如果慢的話，可以直接通過我的百度網盤分享下載哦。連結: https://pan.baidu.com/s/1P6rkF5CwK5yyrxUrh-jj8w 提取碼: c38h 點選對應版

【百度LOGO許可權】三天時間從獲取LOGO許可權到稽核通過

　　一、百度LOGO許可權是什麼？　　在百度站長平臺的介紹中有關於網站logo許可權的說明：官網LOGO旨在幫助站點提升百度搜索的優質展示。因此，獲得logo許可權也可以說是百度對於我們網站質量的認可。　　二、如何獲取LOGO許可權？　　在百度站長平臺有關於L

【百度爬蟲系列 III】深度搜索(給定網址採集全部url)

目的

思路

程式碼

相關推薦