1. 程式人生 > >Python爬蟲(入門+進階)學習筆記 1-5 使用pandas儲存豆瓣短評資料

Python爬蟲(入門+進階)學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包

  • numpy: (Numerical Python的簡稱),是高效能科學計算和資料分析的基礎包
  • pandas:基於Numpy建立的Python包,含有使資料分析工作變得更加簡單的高階資料結構和操作工具
  • matplotlib:是一個用於創建出版質量圖表的繪圖包(主要是2D方面)
import pandas as pd #匯入pandas
import numpy as np #匯入numpy
import matplotlib.pypolt as plt #匯入matplotlib

2. pandas儲存資料到Excel

to_excel() 例項方法:用於將DataFrame儲存到Excel

df.to_excel('檔名.xlsx', sheet_name = 'Sheet1') #其中df為DataFrame結構的資料,sheet_name = 'Sheet1'表示將資料儲存在Excel表的第一張表中

read_excel() 方法:從excel檔案中讀取資料

pd.read_excel('檔名.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

3. pandas儲存資料到csv檔案

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(6,3)) #建立隨機值並儲存為DataFrame結構
print(df.head())
df.to_csv('numpppy.csv')

實戰環節

結合之前學習的獲取資料、解析資料的知識,爬取《小王子》豆瓣短評的資料,並把資料儲存為本地的excel表格

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sat Mar 17 17:18:35 2018

@author: Jackie
"""

import requests
from lxml import etree
import pandas as pd


urls = ['https://book.douban.com/subject/1084336/comments/hot?p={}'.format(str(i)) for i in range(1,6)]

comments = []

for url in urls:
    r = requests.get(url).text
    s = etree.HTML(r)
    file = s.xpath('//div[@class="comment"]/p/text()')
    comments += file


df = pd.DataFrame(comments)
print(df.head())
#df.to_excel('comment.xlsx')

結果:


相關推薦

Python爬蟲入門+學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包numpy: (Numerical Python的簡稱),是高效能科學計算和資料分析的基礎包pandas:基於Numpy建立的Python包,含有使資料分析工作變得更加簡單的高階資料結構和操作工具matplotlib:是一個用於創建出版質量圖

Python爬蟲入門+學習筆記 1-1 什麼是爬蟲

爬蟲的定義:網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。網頁的兩種載入方法同步載入:改變網址上的某些引數會導致網頁發生改變,例如:www.itjuzi.com/compa

Python爬蟲入門+學習筆記 1-6 瀏覽器抓包及headers設定案例一:爬取知乎

爬蟲的一般思路:抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理 本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析:使用谷歌瀏覽器開發者工具分析網頁的請求測試:測試URL請求中每個引數的作用,找出控制翻頁等功能的引數重複:多次重複

Python爬蟲入門+學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體,知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件 通常,Request物件在爬蟲程式中生成並傳遞到系統,直到它們到達下載程式,後者執行請求並返回一個Response物件,

Python爬蟲入門+學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

本章節將會系統地介紹如何通過Scrapy框架把爬蟲工程化。本節主要內容是:簡單介紹Python和爬蟲的關係,以及將要使用的Scrapy框架的工作流程。Python適合做爬蟲的原因語言本身簡單,適合敏捷開發有比較完善的工具鏈足夠靈活,以應對各種突然狀況爬蟲的知識體系前端相關知識:html,css,js;瀏覽器相

Python爬蟲入門+學習筆記 3-1 爬蟲工程師:HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言,DevTools(開發者工具)非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具,可用來對

web全棧工程師前端學習線路圖

近兩年關於“前端工程師堅守前端還是主攻全棧開發”的問題,成為很多程式設計愛好者熱議的話題。全棧開發工程師的概念最早是由Facebook提出的。全棧的核心是指開發者能夠承擔包括前端、後端在內的所有功能開發任務。與傳統前端相比,web全棧開發工程師需要具備跨領域知識,甚至需要成為全才。作為勇於挑戰自我的前端,

ES6標準入門第三版學習筆記(1)

  ES6宣告變數的六種方法   ES5只有兩種 var,function命令   ES6新增了let,const,class,import命令 驗證var與let用法上的不同 var a = []; for (var i = 0; i < 10; i++){

最完整的臺達PLC培訓教程沈陽工大學習筆記1

啟動 ces 編程 管理 可擴展 開頭 使用 body 出錯 1) 可編程控制器的應用1 開關量邏輯控制:電動機啟動與停止2 運動控制:對步進電動機或伺服電動機的單軸或多軸系統實現位置控制3 過程控制:對溫度、壓力、流量等連續變化的模擬量進行閉環控制4 數據處理:數據采集-

Visual C++.NET技術內幕第6版學習筆記1

ex06d:1.error C2664: “CreateFileW”: 不能將引數 1 從“const char *”轉換為“LPCWSTR” 解決方法: (1)改函式呼叫:VS中很多以前的函式直接輸入字串,現在改為_T("字串")了比如: pDC->TextOutW(

python學習之旅2函式

目錄  楔子  名稱空間和作用域  函式巢狀及作用域鏈  函式名的本質  閉包  本章小結 楔子 假如有一個函式,實現返回兩個數中的較大值: def my_max(x,y): m = x if x>y else y return mbigger

還沒寫過爬蟲的小白點進來,一文帶你入門python爬蟲小白福利

入門 準備工作 需要準備的東西: Python、scrapy、一個IDE或者隨便什麼文字編輯工具。 隨便建一個工作目錄,然後用命令列建立一個工程,工程名為miao,可以替換為你喜歡的名字。 scrapy startproject miao 隨後你會得到如下的一個由scrapy建立

人工智慧新手入門——高數篇矩陣

方陣行列式: CBDmax 行列式我們可以就是把他想象成一個函式,通過這個函式計算出來的結果,就是行列式的結果了。 代數餘子式: CDBmax 這張圖給我們介紹了幾個概念: 1.  在一個n階矩陣中,元素  所在的行和列刪除,剩下的結果就是  的餘子式這裡記

redis入門指南一書總結下redis

redis事務 Redis中的事務是一組命令的集合,事務和命令一樣都是Redis的最小執行單位 事務的原理為:先發送MULTI命令告訴redis接下來將會開啟一個事務,然後傳送一系列命令,最後傳送執行命令EXEC告訴redis執行這一系列命令。如下就

Python程式設計從入門到實踐》學習筆記詳解-專案篇資料視覺化

上一篇總結了《Python從入門到實踐》的第1章至第11章即基礎語法篇,這篇文章將介紹本書的專案篇之資料視覺化。 #專案一 資料視覺化 #繪製簡單的折線圖 import matplotlib.p

Python程式設計從入門到實踐》學習筆記詳解-專案篇API的使用

上幾篇介紹了《Python程式設計從入門到實踐》的語法篇及2個專案篇。這篇文章介紹Python專案篇之API的使用。 #Python網路程式設計--API的使用 #執行API呼叫並處理結果 imp

Python程式設計從入門到實踐》學習筆記詳解-專案篇下載資料

上兩篇文章分別介紹了《Python程式設計從入門到實踐》的語法篇和專案篇(資料視覺化),這篇文 #專案二 下載資料 #訪問並可視化csv和json這兩種常見格式儲存的資料 #csv #提取並讀取資料 import csv filename='filename.c

Python爬蟲正則表示式

Python爬蟲(正則表示式) 最近接觸爬蟲比較多,下面我來展示一個剛爬取的成果,使用正則表示式的方法,希望對剛開始接觸爬蟲的小夥伴有所幫助,同時希望大佬們給予點評和指導 接下來,步入正題,使用正則表示式爬取資料是一種原始且有效的方法,正則表示式的作用即字元匹配,匹配出你想得到的

python 基礎教程第三版學習筆記

第十四章 網路程式設計 鑑於Python提供的網路工具眾多,這裡只能簡要地介紹它的網路功能。 本章首先概述Python標準庫中的一些網路模組。然後討論SocketServer和相關的類,並介紹 地介紹同時處理多個連線的各種方法。最後,簡單地說一說Twisted

Python-爬蟲-Json和Csv檔案儲存

用解析器解析出的資料後,可以通過TXT、JSON、CSV等檔案形式進行儲存; 1、TXT形式此處略; 2、JSON檔案儲存 json即js 物件標記,是一種資料格式; json格式: json物件:{"username":"ADMIN","pwd":"xxxx","address":"北京"} j