【數據分析】python分析百度搜索關鍵詞的頻率

阿新 • • 發佈：2018-06-09

爬蟲自動化數據分析 python 基礎

涉及知識點

1、抓取數據

2、分頁爬蟲

規律分析

1、抓取數據，發現每一項都是data-tools標簽

技術分享圖片

2、分頁分析

技術分享圖片

代碼

import requests
from bs4 import BeautifulSoup
import re
import json
import jieba
#獲取html頁面信息
def getKeywordResult(keyword, pagenum):
    url = 'http://www.baidu.com/s?wd=' + keyword + '&pn=' + pagenum + '0'
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""
#解析並抽取數據
def parserLinks(html):
    soup = BeautifulSoup(html, "html.parser")
    links = []
    for div in soup.find_all('div', {'data-tools':re.compile('title')}):
        data = div.attrs['data-tools']
        d = json.loads(data)
        links.append(d['title'])
        words_all.append(d['title'])
    return links, words_all
#詞頻統計
def words_ratio(words_all):
    words = []
    for i in words_all:
        tmp = jieba.lcut(i)
        for tmp_word in tmp:
            words.append(tmp_word)
    counts = {}
    for word in words:
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word, 0) + 1
    items = list(counts.items())
    items.sort(key=lambda x: x[1], reverse=True)
    for i in range(30):
        word, count = items[i]
        print("{0:<10}{1:>5} 占比：{2}".format(word, count, int(count)/len(words)))
def main():
    for pagenum in range(0, 50):
        html = getKeywordResult('老張', str(pagenum))#輸入搜索關鍵詞和頁數
        ls, words_all = parserLinks(html)
        count = pagenum + 1
        for i in ls:
            print("[{:^3}]{}".format(count, i))
        ls = []
    words_ratio(words_all)
if __name__ == '__main__':
    words_all = []
    main()

結果

技術分享圖片

後續的思考

代碼都很簡單，高手要懂得如何去擴展。現在雖然數據都爬下來了，但是非常淩亂，仍然需要人工去分析比對。這樣的數據我稱之為裸數據，理想的數據是可讀且有關聯的，我稱之為金子數據。

這個轉換分析的過程涉及到兩個問題：

1、如何實現可讀？

可以用字典裏面的del[]方法刪去壞的數據

2、如何實現數據的關聯性？

先將裸數據進行二次分析，將相關的字項放到一塊，然後再做運行

【數據分析】python分析百度搜索關鍵詞的頻率

【數據結構】5.2 二叉搜索樹的創建查找以及插入操作

函數 use span system 指針二叉搜索樹 new bug 個數 TAG 此代碼遇到一個bug，在Insert函數中，註釋部分，思考一下為什麽用這個方法來添加會失效 #include<iostream> using namespace std; s

【數據分析】python分析百度搜索關鍵詞的頻率

爬蟲自動化數據分析 python 基礎涉及知識點 1、抓取數據 2、分頁爬蟲規律分析1、抓取數據，發現每一項都是data-tools標簽2、分頁分析代碼import requests from bs4 import BeautifulSoup import re impo

【數據科學】Python數據可視化概述

位數初步動態實例進行 com 基本設置 classic -o 註：很早之前就打算專門寫一篇與Python數據可視化相關的博客，對一些基本概念和常用技巧做一個小結。今天終於有時間來完成這個計劃了！ 0. Python中常用的可視化工具 Python在數據

【專家專欄】淺談百度搜索排序

百度搜索排序站長圈經常聊的話題中，怎麽提升百度排序一定是排名TOP3的問題，那百度排序的原理是什麽，該怎麽提升，今天給大家分享一下經驗心得。關於排序這件事兒對於像百度搜索來說，並沒有排序這一說法，搜索引擎認為排序是在特定的關鍵詞下網站內容的位置，而關鍵詞是由用戶搜索產生，如果一個關鍵詞沒有被搜索，也就意味著這

Python實驗:百度搜索關鍵字自動打開相關URL

python實驗:百度搜索關鍵字自動打開相關url#! python # coding: utf-8 # python實現百度搜索關鍵字，並依次用瀏覽器打開前五個搜索結果 ## ##Beautiful Soup 是一個模塊，用於從HTML 頁面中提取信息（用於這個目的時，它比正則表達式好很多）。Beautif

python實現百度搜索

python 爬蟲 mechanize 瀏覽器利用Python mechanize模塊模擬瀏覽器實現百度搜索# -*- coding:utf-8 -*- import mechanize import sys reload(sys) sys.setdefaultencoding(‘utf8‘

我的第一個自動化腳本（python）----百度搜索

expect style 目錄 .exe nbsp com 自動其他人其他這是一個純小白胡說八道的個人總結，如果有人看到什麽不對的，歡迎批評指正博客園開通了很久，一直不知道該怎麽去寫，總覺得自己要寫的東西都是別人已經寫過的，我再去寫就是在重復之前人所說，今天去面試和

15行Python 仿百度搜索引擎

name 3D ebe 結果 open author sta def images 開發工具：PyCharm 開發環境：python3.6 + flask + requests 開發流程: 1. 啟動一個web服務 from flask import Fl

python 模擬百度搜索

1 import urllib.request 2 def Url(url): 3 flag = input("請輸入要搜尋的關鍵字：") 4 headers_ = { 5 "User-Agent": "Mozilla/5.0 (Windows NT 6.1;

【數據庫】MySQL數據庫（二）

關閉數據庫 dos命令 medium 數據庫密碼 gin mysql tables 日期導出數據一、數據庫文件的導出 1.在DOS命令行下導出數據庫(帶數據) mysqldump -u root -p 數據庫名 > E:\wamp\www\lamp175\lam

【數據庫】MySQL數據庫（三）

沒有特殊進行主鍵索引 rst ble 刪除索引可能一、MySQL當中的索引：數組當中我們見過索引；它的好處就是能夠快速的通過下標、索引將一個信息查到；或者說能夠快速的定位到一個信息； 1.MySQL中的索引是什麽？它是將我們表中具有索引的那個字段，

【數據庫】MySQL數據庫（一）

管理系統 ins 我的電腦使用語句命令行 mar alt rac 一、MySQL數據庫系統 MySQL數據庫系統就是用來對數據庫、數據的一些管理二、數據庫系統 1.數據庫就是用來存儲各種數據的 2.數據庫管理系統就是用來管理各種數據庫的數據的一個系統

【數據結構】二叉樹(c++)

public ear ren fontsize tree fault left reorder 個數頭文件： #include <iostream> using namespace std; template<class Type> cl

【數據結構】線性表的順序表

width 不能表現 rdquo 而在替換改變如果策略　　線性表是一種最為常用的數據結構，包括了一個數據的集合以及集合中各個數據之間的順序關系。線性表從數據結構的分類上來說是一種順序結構。在Python中的tuple，list等類型都屬於線性表的一種。　　從

【數據結構】數據結構的概述

邏輯關系安排線性表 markdown 一個 ava auto nbsp log 一、概述什麽是數據結構：數據：由有限的符號（比如，"0"和"1"，具有其自己的結構、操作、和相應的語義）組成的元素的集合。結構：元素之間的關系的集合。數據結構：信息的一種組織方式，其目

【數據壓縮】壓縮率-圖像熵-保真度

1.8 -m 兩個 sim 編碼關於導致例如技術分享轉載請註明出處：http://blog.csdn.net/luoshixian099/article/details/50351562 勿在浮沙築高臺關於圖像壓縮上的幾個名詞解釋： 1.平均比特數：相應一張

【數據結構】兩個單循環鏈表的連接操作

單鏈表 ont rac 步驟 lis ext content mil 改變假設在單鏈表或頭指針表示的鏈表上操作這個比較消耗性能，由於都須要遍歷第一個鏈表。找到an,然後將b1鏈接到an的後面。時間復雜度是：O(n)。若在尾指針表示的單循環鏈表上實現，則僅僅需改變指針，

【數據壓縮】JPEG標準與原理解析

round 高頻切割基於大小 image 生成 p s pan 轉載請註明出處：http://blog.csdn.net/luoshixian099/article/details/50392230 CSDN-勿在浮沙築高臺為了滿足不同應用的需求，J

【數據庫】MySQL 復制表結構

class code 來講 tab into 方法查看 state 但是介紹有時候我們需要原封不動的復制一張表的表結構來生成一張新表，MYSQL提供了兩種便捷的方法。例: CREATE TABLE tb_base( id INT NOT NULL PRIMA

【數據結構】The Falling Leaves(6-10)

stream char cas string ons cstring con bsp sta [UVA699]The Falling Leaves 算法入門經典第6章例題6-10(P159) 題目大意：有一顆二叉樹，求水平位置的和。試題分析：亂搞就可以過，將樹根節點

【數據分析】python分析百度搜索關鍵詞的頻率

相關推薦