Request爬取網站（seo.chinaz.com）百度權重的查詢結果

阿新 • • 發佈：2018-10-27

save 網址 gecko rom 圖片頁面隨機數 user gen

一：腳本需求

利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格

數據庫類型：MySql

數據庫表單名稱：website_weight

表單內容及表頭設置：表頭包含有id、main_url（即要查詢的網站）、website_weight（網站權重）

要查詢的網站：EXCEL表格

技術分享圖片

二：需求實現

一：利用openpyxl模塊解析excel文件，將查詢的網站讀取到一個列表中保存

# 解析excel文件，取出所有的url
def get_urls(file_path):
    wb = load_workbook(file_path)
    sheet  
= wb.active
    urls = []
    for cell in list(sheet.columns)[1]:
        if cell != sheet[‘B1‘]:
            urls.append(cell.value)
    return wb, urls

二：分析請求發送，偽造請求，取得HTML頁面

# 偽造請求，取得html頁面
def get_html(url):
    # 定義http的請求Header
    headers = {}  
    # random.randint(1,99) 為了生成1到99之間的隨機數，讓UserAgent變的不同。 

    headers[
        ‘User-Agent‘] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
        random.randint(1, 99))
    # Referer地址使用待查詢的網址
    headers[‘Referer‘] = "http://seo.chinaz.com/" + url + "/"
    html = ‘‘
    try:
        html  
= requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
    except Exception:
        pass
    # 分析頁面元素，提取需要字段
    return html

三：分析HTML頁面，利用BeautifulSoup模塊提取數據

# 利用BeautifulSoup模塊從html頁面中提取數據
def get_data(html, url):
    if not html:
        return url, 0
    soup = bs(html, "lxml")
    p_tag = soup.select("p.ReLImgCenter")[0]
    src = p_tag.img.attrs["src"]
    regexp = re.compile(r‘^http:.*?(\d).gif‘)
    br = regexp.findall(src)[0]
    return url, br

四：數據庫連接配置，並獲取遊標

# 連接數據庫
def get_connect():
    conn = pymysql.connect(
        host=‘127.0.0.1‘,
        port=3306,
        user=‘root‘,
        passwd=‘root‘,
        db=‘seotest‘,
        charset="utf8")
    # 獲取遊標對象
    cursor = conn.cursor()
    return conn, cursor

五：主程序邏輯編寫

if __name__ == "__main__":
    #命令行執行腳本文件，獲取excel文件路徑
    file_path = sys.argv[1]
    #獲取URL列表和excle工作簿
    wb, urls = get_urls(file_path)
    #獲取數據庫連接和遊標
    conn, cursor = get_connect()
    #獲取工作簿當前工作sheet
    sheet = wb.active
    #數據庫插入語句
    sql_insert = ‘‘‘insert into website_weight(main_url, website_weight) values (%s, %s)‘‘‘
    
    for row, url in enumerate(urls):
        if not url: continue
        html = get_html(url)
        data = get_data(html, url)

        # 插入數據到數據庫
        cursor.execute(sql_insert, data)
        # 插入數據到Excel表中
        cell = sheet.cell(row=row + 2, column=3)
        cell.value = data[1]
        # 終端打印插入的數據
        print(data)
    conn.commit()
    conn.close()
    wb.save(file_path)
    wb.close()

# cmd命令：python3 F:\算法與結構\網站權重.py F:\website.xlsx

三：腳本運行及其實現結果

CMD執行

技術分享圖片

數據庫：

技術分享圖片

excel文件寫入：

技術分享圖片

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

requests 使用免費的代理ip爬取網站（要效率的話還是推薦花錢買vip）

import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxxxx" #代理ip網站 proxy_url = "https://www.kuaidaili.com/free

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

多執行緒爬取圖片（生產者-消費者模式）

通過生產者-消費者模式實現多執行緒爬取圖片：　　1、生產者通過不斷爬取網頁中圖片的url存入圖片佇列中　　2、消費者通過圖片佇列中的url爬取圖片並下載到本地　　3、多執行緒的方式，爬取與下載同時進行，直到子執行緒結束，輸出爬取時間 1 #多執行緒下載圖片 2 #生產者

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

從菜鳥教程網站（www.runoob.com）上下載所有入門教程

這個爬蟲是大三的時候剛學習程式設計的時候寫的，今天整理github的時候發現程式碼有bug就把它update了。實現了從菜鳥教程網站下載所有的教程，並且離線教程支援流式閱讀（個人比較懶= =，也比較習

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

c#爬取地圖上門店資訊，支援百度，高德，搜狗地圖

這幾天，聽一個朋友在抱怨，買門店資訊難，不準確，於是趁著端午假期，無聊時間，做了一個可以採集門店資訊的小工具話不多說，先看看效果圖吧勾選掉過濾掉無聯絡方式的門店，就不會匯出沒有聯絡方式的門店了採集完成後，會自

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）

在爬取網站過程中，通常會遇到區域性動態重新整理情況，當你點選“下一頁”或某一頁時，它的資料就進行重新整理，但其頂部的URL始終不變。這種區域性動態重新整理的網站，怎麼爬取資料呢？某網站資料顯示如下圖所示，當點選“第五頁”之時，其URL始終不變，傳統的網站爬取方法是無法拼接這類

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

scrapy 就是 setting 頁面效果 useragent 基本生效 request 默認請求頭命令行執行，新建爬蟲 scrapy startproject myspidercd myspider scrapy genspider scrapy_spid

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

Day11 (黑客成長日記) 爬取網站圖片

#匯入第三方庫# coding:utf-8import requests,re#找到需要爬取的網站'http://www.qqjia.com/sucai/sucai1210.htm'#1>獲取網站 2>正則表示式匹配不同圖片的地址 3>找到所有圖片的URL#開發講究見名識意#1.1 定

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

簡單爬蟲之爬取網站圖片

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

#!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21 import requests #匯入requests包;發請求網頁 from bs4 import BeautifulSoup #匯入bs4包;

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

Python爬取網站美女照片

上次無意之中看到一個網站，裡面全是美女的照片，我就心想，哪天有時間了得把這網站的所有美女照片都得爬下來。今天有時間，寫了點程式碼，爬去了網站的所有照片。附上戰果！圖片實在是太多了，爬了一個多小時，還在爬.... 先附上所有的原始碼： # -*- coding: utf-8 -*-

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

一：腳本需求

二：需求實現

三：腳本運行及其實現結果

相關推薦