python從零開始寫爬蟲（5）-- 資料入庫

阿新 • • 發佈：2019-02-01

寫好的爬蟲，現在就讓他跑起來，把資料load到資料庫

具體操作：

1.安裝python 連結mysql的庫:pip install PyMySql

2.新建資料庫及表：

DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
  `newsid` varchar(255) DEFAULT NULL,
  `title` varchar(255) DEFAULT NULL,
  `newssource` varchar(255) DEFAULT NULL,
  `dt` varchar(255) DEFAULT NULL,
  `article` mediumtext,
  `editor` varchar(255) DEFAULT NULL,
  `id` int(11) NOT NULL AUTO_INCREMENT,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=22 DEFAULT CHARSET=utf8;

3.操作資料庫方法：

import pymysql 
def connDB(): 
    #連線資料庫 
    conn=pymysql.connect(host='localhost',user='root',passwd='',db='pythod_pacong',charset='utf8') 
    cur=conn.cursor()
    return (conn,cur)

def exeUpdate(conn,cur,sql): 
    #更新語句，可執行Update，Insert語句 
    sta=cur.execute(sql)
    conn.commit()
    return (sta)

def exeQuery(cur,sql): 
    #查詢語句 
    cur.execute(sql)
    result = cur.fetchone()
    return (result)


def connClose(conn,cur): 
    #關閉所有連線 
    cur.close()
    conn.close()

4.開始爬蟲load資料入庫：

connDB1 = connDB()
sql = "insert into news(newsid,title,newssource,dt,article,editor) values"
urls = getNewsURLs('http://news.sina.com.cn/china/')
for url in urls:
    sql1 = sql+ '("'+ getNewsDetail(url)["newsid"] +'","'+getNewsDetail(url)["title"]+'","'+getNewsDetail(url)["newssource"]+'","'+getNewsDetail(url)["dt"]+'","' +getNewsDetail(url)["article"] +'","' + getNewsDetail(url)["editor"]  + '")'
    print(exeUpdate(connDB1[0],connDB1[1],sql1))
connClose(connDB1[0],connDB1[1])

5.爬取結果如下：

python從零開始寫爬蟲（5）-- 資料入庫

寫好的爬蟲，現在就讓他跑起來，把資料load到資料庫具體操作： 1.安裝python 連結mysql的庫:pip install PyMySql 2.新建資料庫及表： DROP TABLE IF

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

Python從零開始寫爬蟲（一）requests庫使用

requests是一個強大的網路請求庫，簡單易用-讓 HTTP 服務人類。可以參考這個網站的介紹：http://cn.python-requests.org/zh_CN/latest/index.html 直接使用pip install requests安裝此模組之後，開始吧。

python從零開始寫爬蟲（1）-- 開發環境搭建

我是一點都不會python,但為了寫爬蟲，所以就硬幹了。。。 1.windows下搭建python環境直接參考這個就行了安裝指南 2.透過pip安裝套件：1)pip install requests;2)pip install BeautifulSoup4 具體操

Python從零開始系列連載（5）——Python的基本運算和表示式（上）

變數變數是什麼意思？還記得之前講過的裝菜的盤子和碗麼？不記得就回去看看咯如果你學過其他語言，使用變數先要定義，或者在定義的同時賦值而派森的變數不需要單獨定義，你直接在賦值的過程中完成了定義有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PD

Python從零開始系列連載（2）——jupyter的常用操作

前文說了學Python先安裝anaconda的環境我們現在來看看安裝完之後怎麼用我已經迫不及待寫程式碼了洋洋灑灑幾千行喂，烙鐵，你的口水都流出來了，快醒醒【用力拍】有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PDF，感興趣者

Python從零開始系列連載（14）——Python特色資料型別（字典）（下）

字典的操作字典提供了很多方法對字典操作： 1.dict.keys() 作用：返回包含字典所有key的列表 2.dict.values() 作用：返回包含字典所有value的列表 3.dict.items() 作用：返

Python從零開始系列連載（18）——Python特色資料型別（函式）（中）

無返回值的函式之前說了好多，都是有返回值的函式，那有沒有沒返回值的函式呢？這個可以有！函式中變數的作用域變數的作用域就是在程式中能對這個變數操作的區域範圍有點像初高中學的函式的定義域 Python允許同名變數的出現

Python從零開始系列連載（17）——Python特色資料型別（函式）（上）

函式說到函式，如果你沒有程式設計基礎，可能馬上會想到初高中學過的： y = f（x）例如：y = x +1 當我們 x = 1時，y = 2 x = 2，y = 3 小明：老溼，我們不是初中生！函式可以將問題簡化，我們可以重複使用這個函式解決

Python從零開始系列連載（22）——Python檔案操作（下）

檔案寫入之前講過了檔案開啟建立和關閉，我們接著來談談檔案寫入之前我們說了使用open（）加上檔案的絕對路徑或者相對路徑可以開啟檔案這裡我們講一個更簡單的方法我們匯入os模組 os模組是和作業系統相關的模組在Python中這樣操作：

Java 從零開始學爬蟲（gecco）

廢話：第一次學習並嘗試分析、爬取一個網站的資料，全部是從零開始的經驗，希望對各位看官有幫助，當然，本次爬取的是一個比較簡單的網頁，沒有任何反爬蟲措施的網頁。網上查了一下Java爬資料，最原始的方式是用請求網頁的字串然後用正則解析標籤，再查了一下有什麼爬蟲、解析

Python從零開始系列連載（24）——Python的time模組簡單使用

time模組在之前的課程中我們已經匯入過常用模組，比如 os 模組我們在這節課中，要學習time模組的匯入和使用 time，顧名思義，是時間相關的模組~ 和 os 模組匯入方法相同 import 模組名即可匯入模組那什麼是模組

Python從零開始系列連載（1）——安裝環境

前言人生苦短，我選Python！ ★★★★直奔主題！！！安裝環境現在，我帶大家裝anaconda，而不是裝Python。因為Python英文是蟒蛇，anaconda是水蟒。大家和我一起搜尋一下anaconda：在首頁我們可以看到： P

技術 | Python從零開始系列連載（二十九）

寫爬蟲防止被封的關鍵有以下幾點： ● 偽裝請求報頭（request header） ● 減輕訪問頻率，速度 ● 使用代理IP 一般第一點都能做到，第二點減輕訪問頻率就會大大增加任務時間，而使用代理就能

從零開始學caffe（四）：mnist手寫數字識別網路結構模型和超引數檔案的原始碼閱讀

下面為網路結構模型 %網路結構模型 name: "LeNet" #網路的名字"LeNet" layer { #定義一個層 name: "mnist" #層的名字"mnist" type:

python Scrapy 從零開始學習筆記（一）

在之前我做了一個系列的關於 python 爬蟲的文章，傳送門：https://www.cnblogs.com/weijiutao/p/10735455.html，並寫了幾個爬取相關網站並提取有效資訊的案例：https://www.cnblogs.com/weijiutao/p/10614694.html&nb

python Scrapy 從零開始學習筆記（二）

在之前的文章中我們簡單瞭解了一下Scrapy 框架和安裝及目錄的介紹，本章我們將根據 scrapy 框架實現部落格園首頁部落格的爬取及資料處理。我們先在自定義的目錄中通過命令列來構建一個 scrapy 專案目錄 scrapy startproject scrapyCnblogs 生成一下目錄

從零開始學習html（五）與瀏覽者交互，表單標簽——下

定位開始系統 isp ctr 程序顯示 text 輸入六、使用下拉列表框進行多選 1 <!DOCTYPE HTML> 2 <html> 3 <head> 4 <meta http-equiv="Content-T

從零開始學習html（十）CSS格式化排版——下

而是復習 nbsp 1.5 如果 spl 排版居住 blog 六、文字排版--刪除線 1 <!DOCTYPE HTML> 2 <html> 3 <head> 4 <meta http-equiv="Content-T

從零開始學習html（十三） CSS代碼縮寫，占用更少的帶寬

tin imp important 都是 -h 20px 帶寬記得樣式一、盒模型代碼簡寫 1 <!DOCTYPE HTML> 2 <html> 3 <head> 4 <meta http-equiv="Conten

python從零開始寫爬蟲（5）-- 資料入庫

相關推薦