1. 程式人生 > >Request爬取網站(seo.chinaz.com)百度權重的查詢結果

Request爬取網站(seo.chinaz.com)百度權重的查詢結果

save 網址 gecko rom 圖片 頁面 隨機數 user gen

一:腳本需求

利用Python3查詢網站權重並自動存儲在本地數據庫(Mysql數據庫)中,同時導出一份網站權重查詢結果的EXCEL表格

數據庫類型:MySql

數據庫表單名稱:website_weight

表單內容及表頭設置:表頭包含有id、main_url(即要查詢的網站)、website_weight(網站權重)

技術分享圖片

要查詢的網站:EXCEL表格

技術分享圖片

二:需求實現

一:利用openpyxl模塊解析excel文件,將查詢的網站讀取到一個列表中保存

# 解析excel文件,取出所有的url
def get_urls(file_path):
    wb = load_workbook(file_path)
    sheet 
= wb.active urls = [] for cell in list(sheet.columns)[1]: if cell != sheet[B1]: urls.append(cell.value) return wb, urls

二:分析請求發送,偽造請求,取得HTML頁面

# 偽造請求,取得html頁面
def get_html(url):
    # 定義http的請求Header
    headers = {}  
    # random.randint(1,99) 為了生成1到99之間的隨機數,讓UserAgent變的不同。
headers[ User-Agent] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str( random.randint(1, 99)) # Referer地址使用待查詢的網址 headers[Referer] = "http://seo.chinaz.com/" + url + "/" html = ‘‘ try: html
= requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text except Exception: pass # 分析頁面元素,提取需要字段 return html

三:分析HTML頁面,利用BeautifulSoup模塊提取數據

# 利用BeautifulSoup模塊從html頁面中提取數據
def get_data(html, url):
    if not html:
        return url, 0
    soup = bs(html, "lxml")
    p_tag = soup.select("p.ReLImgCenter")[0]
    src = p_tag.img.attrs["src"]
    regexp = re.compile(r^http:.*?(\d).gif)
    br = regexp.findall(src)[0]
    return url, br

四:數據庫連接配置,並獲取遊標

# 連接數據庫
def get_connect():
    conn = pymysql.connect(
        host=127.0.0.1,
        port=3306,
        user=root,
        passwd=root,
        db=seotest,
        charset="utf8")
    # 獲取遊標對象
    cursor = conn.cursor()
    return conn, cursor

五:主程序邏輯編寫

if __name__ == "__main__":
    #命令行執行腳本文件,獲取excel文件路徑
    file_path = sys.argv[1]
    #獲取URL列表和excle工作簿
    wb, urls = get_urls(file_path)
    #獲取數據庫連接和遊標
    conn, cursor = get_connect()
    #獲取工作簿當前工作sheet
    sheet = wb.active
    #數據庫插入語句
    sql_insert = ‘‘‘insert into website_weight(main_url, website_weight) values (%s, %s)‘‘‘
    
    for row, url in enumerate(urls):
        if not url: continue
        html = get_html(url)
        data = get_data(html, url)

        # 插入數據到數據庫
        cursor.execute(sql_insert, data)
        # 插入數據到Excel表中
        cell = sheet.cell(row=row + 2, column=3)
        cell.value = data[1]
        # 終端打印插入的數據
        print(data)
    conn.commit()
    conn.close()
    wb.save(file_path)
    wb.close()

# cmd命令:python3 F:\算法與結構\網站權重.py F:\website.xlsx

三:腳本運行及其實現結果

CMD執行

技術分享圖片

數據庫:

技術分享圖片

excel文件寫入:

技術分享圖片

Request爬取網站(seo.chinaz.com)百度權重的查詢結果