python爬蟲並將資料儲存到MySQL或Excel中

阿新 • • 發佈：2018-12-11

爬蟲爬取的是豆瓣top250圖書，以儲存到MySQL為例，流程如下：

1.先建表，可以用命令列，也可以用資料庫視覺化軟體，建立好需要用的到的欄位

2.寫好爬蟲，並在爬蟲中連線資料庫，把爬下來的資料按對應的欄位填入資料庫中

# -*- coding: utf-8 -*-
# Captain_N


from lxml import etree
import random
import requests
import time
import pymysql   #匯入相應庫檔案

conn = pymysql.connect(host='localhost',user='root',password='1234',db='DouBan',port=3306,charset='utf8')
cursor=conn.cursor()    #連線資料庫及游標
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5478.400 QQBrowser/10.1.1550.400'
}     #請求頭



def get_info(url):
    res=requests.get(url,headers=headers)
    if res.status_code==200:
        selector=etree.HTML(res.text)
        infos=selector.xpath('//tr[@class="item"]')
        for info in infos:
            name=info.xpath('td/div/a/@title')[0]
            url=info.xpath('td/div/a/@href')[0]
            book_infos=info.xpath('td/p/text()')[0]
            author=book_infos.split('/')[0]
            publisher=book_infos.split('/')[-3]
            date=book_infos.split('/')[-2]
            price=book_infos.split('/')[-1]
            rate=info.xpath('td/div[@class="star clearfix"]/span[2]/text()')[0]
            comments=info.xpath('td/p/span/text()')
            if len(comments)!=0:
                comment=comments[0]
            else:
                comment='空'        #以上是獲取電影詳細資訊
            cursor.execute("insert into doubanmovie(name,author,publisher,date,price,rate,comments) values(%s,%s,%s,%s,%s,%s,%s)",
                           (str(name),str(author),str(publisher),str(date),str(price),str(rate),str(comments)))     #按對應欄位寫入資料庫

    else:
        print('failed')



if __name__=='__main__':     #主程式入口
    urls=['https://book.douban.com/top250?start={}'.format(i*25) for i in range(0,10)]     #構建需要爬去的頁面連線
    #urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_info(url)  #呼叫爬去詳細資訊函式
        time.sleep(random.random()*2)
    conn.commit()

3.儲存到Excel中的流程與之相仿

# -*- coding: utf-8 -*-
# Captain_N


from lxml import etree
import csv
import requests
import time   #匯入相關的庫


headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5478.400 QQBrowser/10.1.1550.400'
}   #請求頭

fp=open('E:\爬蟲\projects\DouBan250.csv','wt',newline='',encoding='utf-8')   #建立Excel檔案
writer=csv.writer(fp)
writer.writerow(('name','url','author','publisher','date','price','rate','comment'))   #建立csv，寫入表頭

def get_info(url):
    res=requests.get(url,headers=headers)
    if res.status_code==200:
        selector=etree.HTML(res.text)
        infos=selector.xpath('//tr[@class="item"]')
        for info in infos:
            name=info.xpath('td/div/a/@title')[0]
            url=info.xpath('td/div/a/@href')[0]
            book_infos=info.xpath('td/p/text()')[0]
            author=book_infos.split('/')[0]
            publisher=book_infos.split('/')[-3]
            date=book_infos.split('/')[-2]
            price=book_infos.split('/')[-1]
            rate=info.xpath('td/div[@class="star clearfix"]/span[2]/text()')[0]
            comments=info.xpath('td/p/span/text()')
            if len(comments)!=0:
                comment=comments[0]
            else:
                comment='空'      #以上為獲取詳細資訊
            writer.writerow((name,url,author,publisher,date,price,rate,comment))    #按對應的表頭寫入資料

    else:
        print('failed')



if __name__=='__main__':  #主程式入口
    urls=['https://book.douban.com/top250?start={}'.format(i*25) for i in range(0,10)]
    #urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_info(url)
        time.sleep(1)
fp.close()#關閉csv檔案

python爬蟲並將資料儲存到MySQL或Excel中

爬蟲爬取的是豆瓣top250圖書，以儲存到MySQL為例，流程如下： 1.先建表，可以用命令列，也可以用資料庫視覺化軟體，建立好需要用的到的欄位 2.寫好爬蟲，並在爬蟲中連線資料庫，把爬下來的資料按對應的欄位填入資料庫中 # -*- coding: utf-8 -*- # Captain

java呼叫Linux執行Python爬蟲，並將資料儲存到elasticsearch--（一、環境指令碼搭建）

java呼叫Linux執行Python爬蟲，並將資料儲存到elasticsearch中一、以下部落格程式碼使用的開發工具及環境如下： 1、idea： 2、jdk：1.8 3、elasticsearch：5.2.0 4、Linux 5、Python 6、maven 二、maven座標： <!--jav

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

通過百度地圖API獲取座標並將資料儲存在資料庫內。

網上很多都是通過百度地圖API呼叫JS的例子，並沒有真正的資料庫互動哦~所以我做了一個與sql server資料庫互動的例子。資料庫用的是sql server，大家看著自行建立資料庫哦~~ 首先，我們建立一個default.aspx 1 <%@ Page Language="C#"

Python3爬取貓眼電影榜並將資料存入MySql

直接上程式碼： #coding=utf-8 import re import time import pymysql import requests from requests.exceptions import RequestException from bs4 import Beautif

Python3.6實現scrapy框架爬取資料並將資料插入MySQL與存入文件中

# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org

_036_Android_將資料儲存到應用程式中(私有的)

儲存資料出現異常 : 是因為 , 這裡的路徑以及儲存的方式都有問題 , 目前是執行在androd中, android底層是linux核心, linux 檔案系統是根目錄是一個 / 寫 File file = new File(“in

C# 下載excel模板,並將資料導進模板excel

#region Event 匯¡Ñ出DX表i格a private void butExcel_Click(object sender, RoutedEventArgs e) { System.Windows.Forms.SaveFileDial

Java 讀取excel指定行列資料以及將資料儲存到txt檔案中

在使用的軟體中經常要用到一些資料的匯入匯出，以及準確的定位資料，這些經常會涉及excle表格，因此把今天學習到的關於如何利用Java準確獲取到excle中的某一列資料，同時將此列資料輸出到txt檔案格式中。使用的jar包：jxl.jar 相關的API：http://jx

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

python爬蟲系統(4.4-資料儲存到mongodb資料庫中)

一、如果你對mongodb不太熟悉的可以參考二、將爬取的資料直接存入到mongodb資料庫中 1、在python中使用pymongo連線mongodb pip3 install pymongo 三、依然將之前爬取農產品產品資訊的資料存入mongodb中

python操作txt檔案中資料教程[3]-python讀取資料夾中所有txt檔案並將資料轉為csv檔案

python操作txt檔案中資料教程[3]-python讀取資料夾中所有txt檔案並將資料轉為csv檔案覺得有用的話,歡迎一起討論相互學習~Follow Me 參考文獻 python操作txt檔案中資料教程[1]-使用python讀寫txt檔案 python操作txt檔案中資料教程[2]-pyth

R語言實戰--隨機產生服從不同分佈函式的資料（正態分佈，泊松分佈等），並將資料寫入資料框儲存到硬碟

隨機產生服從不同分佈的資料均勻分佈——runif（） > x1=round(runif(100,min=80,max=100)) > x1 [1] 93 100 98 98 92 98 98 89 90 98 100 89

python如何獲取網路上的圖片並將其儲存在本地

import urllib # 網路上圖片的地址 img_src = 'http://img.my.csdn.net/uploads/201212/25/1356422284_1112.jpg' # 將遠端資料下載到本地，第二個引數就是要儲存到本地的檔名

Python將資料寫入MySQL

import MySQLdb # connect MySQL conn = MySQLdb.connect( host= , user= , passwd= , db= , port= , charset='utf8') cursor

用 python 寫爬蟲爬取得資料儲存方式

mysql：首先配置檔案： ITEM_PIPELINES = { firstbloodpro.pipelines.MysqlproPipeline:300},配置好管道第二配置好所需要的使用者名稱等 HOST='localhost' POST=3306 USE

PHP如何查詢MySQL資料頁面並輸出內容到頁面，並另存為CSV或EXCEL檔案

<? header("Content-type:text/html;charset=utf-8"); /** * mysql connection configure * 2016-04-09 * Ron */

Js動態追加行，並將內容儲存到資料庫，並取出資料通過js動態顯示

實現步驟講解: 首先需要在html頁面建立一個table表格和一個動態新增行的按鈕 <input type="button" onclick="addT（）" value="新增" /> 然後實現表格中追加行的js方法 //新增動態行(可在實現的列中新增相應的滑鼠事

Photoshop CS6將多張圖片合成GIF動態圖或視訊，並將其儲存匯出

（0）從Mini Bridge中拖入多張圖片（製作原材料），形成多個圖層。（1）從“視窗”中開啟“時間軸” 從“時間軸”的選項中“從圖層建立幀”，並設定各幀的延遲時間。可點選播放進行預覽。（2）儲存為GIF格式檔案。從“檔案”選擇“儲存為Web所用格式”，命名並“儲存”即可

Python中scrapy爬蟲框架的資料儲存方式（包含：圖片、檔案的下載）

注意：1、settings.py中ITEM_PIPELINES中數字代表執行順序（範圍是1-1000），引數需要提前配置在settings.py中（也可以直接放在函式中，這裡主要是放在settings.py中），同時settings.py需要配置開啟2、 process_it

python爬蟲並將資料儲存到MySQL或Excel中

1.先建表，可以用命令列，也可以用資料庫視覺化軟體，建立好需要用的到的欄位

2.寫好爬蟲，並在爬蟲中連線資料庫，把爬下來的資料按對應的欄位填入資料庫中

3.儲存到Excel中的流程與之相仿

相關推薦