信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

阿新 • • 發佈：2019-03-23

解釋 return oot 進度 mysql recursive div == lec

老師給我們提供了一個word文檔，裏面是一份信息行業熱詞解釋手冊，要求我們把裏面的文字存進數據庫裏面，然後在前臺展示出來。

首先面臨的問題是怎麽把數據導進MySQL數據庫，大家都有自己的方法，我采用了將word轉換成html文件，然後通過爬蟲技術將內容提取出來保存到數據庫。

寫這篇博客的時候我剛存進數據庫裏，所以就介紹一下我的爬蟲代碼，下一篇將介紹通過微信小程序展示MySQL中的數據。

python的爬蟲框架有很多，我用的是BeautifulSoup框架，首先要在頭文件引用一下包from bs4 import BeautifulSoup

BeautifulSoup框架常用的用的一些函數有：

find（）#獲得一條map數據

find_all（name , attrs , recursive , string , **kwargs ）#搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件，獲得list列表

select（）#跟find_all類似，常用的是find_all（），可以通過select(‘#id‘)取得含有特定CSS屬性的元素

get_text()#返回一個tag節點內的文字

同學也有用xpath做爬蟲的

XPath 是一門在 XML 文檔中查找信息的語言。 
BeautifulSoup是一種在BeautifulSoup（）處理後的樹形文檔中解析的語言 
 
re正則表達式只能對string類型對象進行解析

下面是代碼

from bs4 import BeautifulSoup
import pymysql

#數據時從本地文件裏來
def read_file(path):
    #註意編碼格式可能會出錯
    with open(path, ‘r+‘, encoding=‘ANSI‘) as f:
        str = f.read()
    return str.strip().replace(‘\ufeff‘, ‘‘)

# 解析目錄數據
def parse_data(data):
    #讀取第一個MsoToc1和第二個MsoToc1之間的所有數據
    for str1 in data.split(‘class=MsoToc1‘)[1:]:
        bs = BeautifulSoup(str1, ‘lxml‘)
        index = 0
        title1 = ""
        title2 = ""
        title3 = ""
        try:
            for tag in bs.select(‘a‘):
                strs = tag.get_text().split(‘ ‘)[0].rstrip()
                if (‘第‘ in strs and ‘篇‘ in strs):
                    title1 = tag.get_text().split(‘ ‘)[1].replace(‘.‘, ‘‘)

                elif (‘第‘ in strs and ‘章‘ in strs):
                    title2 = tag.get_text().split(‘ ‘)[1].replace(‘.‘, ‘‘)
                else:
                    index = strs;
                    title3 = tag.get_text().split(‘ ‘)[1].replace(‘.‘, ‘‘)
                    save(index, title1, title2, title3)
        except:
            print("數據有誤，跳過執行")
    bigdiv = data.split(‘class=WordSection3‘)[1]
    for str1 in bigdiv.split(‘class=3132020‘)[1:]:
        soup = BeautifulSoup(‘<p class=3132020 ‘+str1, ‘lxml‘)
        content = ""
        index = int(soup.find(‘p‘, {‘class‘: ‘3132020‘}).get_text().split(‘ ‘)[0])
        for tag in soup.find_all(‘p‘, {‘class‘: ‘4‘}):
            content += tag.get_text()+‘\r\n‘
        update(index,content)
    return
#保存到數據庫
def save(index,title1,title2,title3):
    db = pymysql.connect(host=‘localhost‘, user=‘root‘, password=‘root‘, db=‘jaovo_msg‘)
    conn = db.cursor()  # 獲取指針以操作數據庫
    conn.execute(‘set names utf8‘)
    t = (int(index), title1, title2, title3)
    sql = "INSERT INTO datasfromhtml(`index`,title1,title2,title3) values(%d,‘%s‘,‘%s‘,‘%s‘)" % t

    try:
        conn.execute(sql)
        # 執行sql語句
        db.commit()
    except:
        # 發生錯誤時回滾
        db.rollback()
    # 關閉數據庫連接
    db.close()
    return

#修改到數據庫
def update(index,content):
    db = pymysql.connect(host=‘localhost‘, user=‘root‘, password=‘root‘, db=‘jaovo_msg‘)
    conn = db.cursor()  # 獲取指針以操作數據庫
    conn.execute(‘set names utf8‘)
    t = (content,int(index))
    sql = "update datasfromhtml set content = ‘%s‘ where `index` = %d" % t
    try:
        conn.execute(sql)
        # 執行sql語句
        db.commit()
    except:
        # 發生錯誤時回滾
        db.rollback()
    # 關閉數據庫連接
    db.close()
    return

if __name__ == ‘__main__‘:
    str=read_file(‘../resource/HB.htm‘)
    parse_data(str)

信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

解釋 return oot 進度 mysql recursive div == lec 老師給我們提供了一個word文檔，裏面是一份信息行業熱詞解釋手冊，要求我們把裏面的文字存進數據庫裏面，然後在前臺展示出來。首先面臨的問題是怎麽把數據導進MySQL數據庫，大家都有自己

「速成應用」一鍵生成微信小程序平臺可視化制作開發無需代碼

一鍵生成拖拉介紹客服我們就是微信模式 www 經歷了頻繁的更新叠代，小程序已經構建起了趨於完善的生態，與此同時，以「速成應用」為代表的小程序第三方開發平臺也在推動著小程序市場的發展。為了更好地助力企業打造微信內電商生態閉環，實現線上線下引流，「速成應用」於近日

【python可視化方案】pyecharts + Django 框架

iss 處理解決 char -a 配置 template 使用 ubun 背景：基於對於可視化的巨大需求以及成本因素，利用pyecharts + Django 的可視化方式，顯然是一種比較優的選擇通過可視化可尋找：模式、關系和異常環境：強迫癥患者，歷來都是用最新版本

微軟Power BI 的數據可視化技術workshop

text pow 實戰 watermark nag 技術圖片微軟分享圖片 2018年2月9日的微軟技術愛好者的免費講座活動。實戰演示介紹微軟Power BI數據可視化大屏技術分享。深受大家好評！微軟Power BI 的數據可視化技術workshop

借助WebGL三維可視化技術檢索3D動態圖像

WebG 三維可視大數據可視化平臺是通過三維表現技術來表示復雜的信息，實現對海量數據的立體呈現。可視化技術借助人腦的視覺思維能力，通過挖掘數據之間重要的關聯關系將若幹關聯性的可視化數據進行匯總處理，揭示數據中隱含的規律和發展趨勢，從而提高數據的使用效率。在解決了海量數據分析耗時過長、挖掘深度不夠、數

利用Python網絡爬蟲抓取微信好友的所在省位和城市分布及其可視化

Python網絡爬蟲微信好友微信朋友圈可視化數據采集前幾天給大家分享了如何利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例，感興趣的小夥伴可以點擊鏈接進行查看。今天小編給大家介紹如何利用Python網絡爬蟲抓取微信好友的省位和城市，並且將其進行可視化，具體的教程如下

利用Python網絡爬蟲抓取微信好友的簽名及其可視化展示

完成 mage 小白 lin 朋友圈簽名教程技術分享 ctu 前幾天給大家分享了如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化，利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例，以及利用Python網絡爬蟲抓取微信好友的所在省位

《R數據可視化手冊》高清英文版PDF+中文版PDF+源代碼

高清 ffffff 代碼 watermark 圖片 -o ref pan mark 下載：https://pan.baidu.com/s/1f4bhEOBB0TpOkyuB9yjxxQ 《R數據可視化手冊》高清英文版PDF+中文版PDF+源代碼高清中文版PDF，337頁，

分布式系統監視zabbix講解四之可視化--技術流ken

定義 lld warning ssi 影響正常的演示管理長時間圖形概述隨著大量的監控數據被采集到Zabbix中，如果用戶可以以可視化的表現形式來查看發生了什麽事情，那麽和僅僅只有數字的表現形式比起來則更加輕松。以下是進行圖形設置的地方。圖形可以一目了

Python+ITchart實現微信中男女比例，城市分佈統計並可視化顯示

直接上程式碼：　 import itchat import os import csv import pandas as pd from pyecharts import Bar,Pie,Geo import shutil as sh # 根據index列印朋友的資訊 def print_I

分享《R數據可視化手冊》+PDF+源碼+Winston Cbang+肖楠

win blog 9.png shadow 手冊 water tps 高清目錄下載：https://pan.baidu.com/s/1HUViw392ao380u0NQOdL6w更多資料分享：http://blog.51cto.com/14087171 《R數據可視化手

R數據可視化手冊 R數據科學 PDF代碼學習資料

我的博客 str 重要需求線圖介紹獲取作者名稱《R數據可視化手冊》側重於解決具體問題，是R數據可視化的實戰秘籍。《R數據可視化手冊》中絕大多數的繪圖案例都是以強大、靈活制圖而著稱的R包ggplot2實現的，充分展現了ggplot2生動、翔實的一面。從如何畫點圖

電巡檢信息化解決方案主要依托物聯網信息技術

管理任務 href 電力行業電力解決電設部分危險性電力行業在巡檢中常需要在戶外記錄數據，危險性高，這是傳統電巡行業運營管理下的所要解決的問題。而物聯宇手持終端/電力平板為變電巡檢管理度身定制，簡單部署，上述問題將迎刃而解。變電巡檢信息化解決方案主要依托物聯網信

R數據可視化----ggplot2之標度、坐標軸和圖例詳解

abs 調整所有不同的 size n) 默認表達 idt 標度控制著數據到圖形屬性的映射，當有需要時，ggplot2會自動添加一個默認的標度。我們確實可以在不了解標度運行原理的情況下畫出許多圖形，但理解標度並學會如何操縱它們則將賦予我們對圖形更強的控制能力。每一種圖

Regexper可視化正則表達式工具

正則表達式正則工具Regexper可視化正則表達式工具Enter Javascript-style regular expression to dispalyhttps://regexper.com/http://www.regexpal.com/正則表達式30分鐘教程 https://deerchao.n

如何將枯燥的大數據呈現為可視化的圖？

大數據可視化將數據轉化成可視化圖表/形，其實一個工具就能完成，礙於工具太多，按照使用場景，暫且將已成熟應用的分為三個層次：第一層：數據報告、信息圖這裏統稱信息圖。信息圖是把數據、信息或知識可視化，必須要有一個清楚準確的解釋或表達甚為復雜且大量的信息。代表人物是新聞界的David McCandles

第三篇：數據可視化 - ggplot2

strong 保存轉換成特征散點圖說明 pdf格式 ota 目的前言 R語言的強大之處在於統計和作圖。其中統計部分的內容很多很強大，因此會在以後的實例中逐步介紹；而作圖部分的套路相對來說是比較固定的，現在可以先對它做一個總體的認識。

第二篇：數據可視化 - 基本API

數據挖掘 idt 示例 iyu 大小 blue .com sof 個性化前言數據可視化是數據挖掘非常重要的一個環節，它不單在查閱了解數據環節使用到，在整個數據挖掘的流程中都會使用到。因為數據可視化不單可以形象地展示數據，讓你對數據有更好

Docker可視化界面（Consul+Shipyard+Swarm+Service Discover）部署記錄

agen net 映射 control pro doc labs 容器默認賬戶前面一篇說到了Docker管理工具-Swarm部署記錄，基於這個環境，下面記錄下Docker可視化界面部署過程： 1）下載相關驚喜 manager-node節點（182.48.115.

87、使用TensorBoard進行可視化學習

哈哈哈 tput sco 而在封裝結果 average 實現 machine 1、還是以手寫識別為類，至於為什麽一直用手寫識別這個例子，原因很簡單，因為書上只給出了這個類子呀，哈哈哈，好神奇下面是可視化學習的標準函數 ‘‘‘ Created on 2017年5月23

信息技術手冊可視化進度報告 基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫

相關推薦

信息技術手冊可視化進度報告基於BeautifulSoup框架的python3爬取數據並連接保存到MySQL數據庫