1. 程式人生 > >【Python學習心得】Python資料分析幾個比較常用的方法

【Python學習心得】Python資料分析幾個比較常用的方法

1,表頭或是excel的索引如果是中文的話,輸出會出錯

​解決方法:python的版本問題!換成python3就自動解決了!當然也有其他的方法,這裡就不再深究

2,如果有很多列,如何輸出指定的列?

需求情況:有的時候,資料很多,但是隻要僅僅對部分列的資料進行分析的話,要怎麼做?

解決方法

df =pandas.read_excel('1.xls',sheetname= '店鋪分析日報')

df =df.loc[:,['關鍵詞','帶來的訪客數','跳失率']] #訪問指定的列

一行讀取資料,第二行訪問指定列

3,如何為資料框新增新的列?

需求情況:有一個表格,裡面的列是單價,數量,想再輸出一個總價的列,或是對一些資料進行總結

解決方法:直接上程式碼

from pandas importread_csv;

import pandas;

df = read_csv("1.csv",sep="|");

#把計算結果新增為一個新的列

df['result'] =df.price*df.num    #新的列名,後面是對應的數值

print (df)

4,如何對百分號的數值進行計算,再將其輸出

需求情況:比較蛋疼的一個情況,電商很多資料都是百分比的,帶有百分號,不能進行直接的計算,需要對其進行轉換,然後再輸出

解決方法:

from pandas importread_csv;

import pandas;

df = read_csv("1.csv",sep="|");

f =df['跳失率'].str.strip("%").astype(float)/100;

f.round(decimals=2) #保留小數點後面2位

f_str = f.apply(lambda x:format(x, '.2%')); #再轉換成百分號並且保留2位數(精度可以調整)

df['跳失率']​= f_str    #重新賦值

5,​如何獲取匯入的資料有幾行和幾列(數值)

需求情況:有的時候需要寫一個通用指令碼,比如隨機抽樣分析,程式自動獲取行和列的話,寫出來的指令碼通用性明顯會很強

解決方法:

df.columns.size  #獲取列數

df.iloc[:, 0].size #獲取行數

6,​如何對資料進行排序

需求情況:這個就不用說了,到處都要用到​

解決方法:

df['跳失率'].size  #對資料進行排序

newDF = df.sort(['曝光量','帶來的訪客數'], ascending=[True, False]); #多重排序

7,如何刪除指定的列?

需求情況:同樣,十幾列的資料,如果你想獲取指定的輸出資料,可以用方法2,但是如果想要獲取的資料列比較多,只有1-2行不想要,這樣就可以用指定刪除列的方法了

解決方法:

df.columns.delete(1)​

一行程式碼搞定!​

總結:整體來說的,python的語法在做資料分析還是相當簡單的,很多的需求基本上就是一行程式碼搞定!

8,如何新增整行資料?

df.append([1,2,34,,5])

相關推薦

Python學習心得Python資料分析比較常用方法

1,表頭或是excel的索引如果是中文的話,輸出會出錯 ​​解決方法:python的版本問題!換成python3就自動解決了!當然也有其他的方法,這裡就不再深究 2,如果有很多列,如何輸出指定的列? 需求情況:有的時候,資料很多,但是隻要僅僅對部分列的資料進

Python資料分析比較常用方法

轉載自:http://blog.sina.com.cn/s/blog_49f78a4b0102vs9m.html 1,表頭或是excel的索引如果是中文的話,輸出會出錯 ​​解決方法:python的版本問題!換成python3就自動解決了!當然也有其他的方法,

python學習-2python起步必備

次方 分號 n) 輸入參數 usr 兩個 python腳本 加減乘 冒號 1、python縮進   python 縮進是tab,還是空格呢?都可以,可以是一個tab,也可以是4個空格,但是最重要的是整個python腳本的縮進必須統一,否則會報錯。 2、代碼註釋   pyth

python學習筆記python字典(dict)

1、字典dict的建立 Python內建了字典:dict的支援,dict全稱dictionary,在其他語言中也稱為map,使用鍵-值(key-value)儲存,具有極快的查詢速度。注意字典內各個部分是沒有順序的區別的; 其java的map是一樣的,屬於key:value模式,一個簡單的

Python學習筆記python元組

python的元組(tuple)和列表(list)類似,是一個有序的列表,區別在於tuple是不能修改的,其初始化方式如下: >>> classmates = ('Michael', 'Bob', 'Tracy') 現在,classmates這個tuple不能變了

python學習筆記python函式定義和傳參方法說明

一、函式定義方式 函式定義用關鍵字def,其引數傳遞不用設定型別,也不用定義返回,然後在函式名稱後加上:號,這點和java很不一樣,相對來說更加簡單了;另外包含關係上用四個空格來標識,而非java的;號; 如下為一個範例,定義了一個函式用來生成任意上界的菲波那契數列: # -*- c

Python學習筆記python列表方法

在python中list是一個有序的集合,可以隨時新增和刪除裡邊的元素 其初始化可以使用如下語句: >>> a=[11,22,33,44,55,66] >>>len(a) 6 如下為方法說明 1、append(x) 在list的尾部加入一

python學習筆記Python面向物件的理解(封裝,繼承,多型)

說明 提到面向物件,總是離不開幾個重要的術語:多型(Polymorphism),繼承(Inheritance)和封裝(Encapsulation)。Python也是一種支援OOP的動態語言,本文將簡單闡述Python對面向物件的支援。 在討論Python的O

Python學習筆記python高階特性:列表生成式

【根據廖雪峰python教程整理】 一、列表生成式 列表生成式即List Comprehensions,是Python內建的非常簡單卻強大的可以用來建立list的生成式。 舉個例子,要生成lis

Python學習之一Python安裝、IDE安裝配置

cmd das 虛擬機 sqlit eclipse windows ref png sql 環境  虛擬機:VMware 10   Linux版本:CentOS-6.5-x86_64   客戶端:Xshell4  FTP:Xftp4  python2.X  python3.

Java學習心得之程式設計計算1!+2!+3!+...+100!

昨天Java老師給我們佈置了一道Java的程式設計習題,題目是程式設計求解1!+2!+3!+…+100!,筆者剛拿到這道題第一反應就是一道白痴題,兩個迴圈巢狀不就完了嗎。但是後來仔細想想,不對,因為100!這個數絕對是個天文數字,在Java中long是長整型變數

機器學習調查資料最棘手,邏輯迴歸最常用

  新智元編譯   來源:The Verge 作者:James Vincent    編譯:馬文 【新智元導讀】資料科學社群Kaggle的最新調查顯示,機器學習和資料科學研究者在被問到工作中面臨的最大障礙時,最常見的回答是“髒資料”,其次是缺乏該領域的人才。此外,他們最常用的方法是“邏輯迴

Unity3d專案學習心得從資源伺服器下載資源(一)

專案裡面的許多資源都是從資源伺服器載入的,這樣子可以減小客戶端的包大小。 所以我們需要一個專門的類來管理下載資源。 資源分很多型別,如:json表,txt檔案,image檔案,二進位制檔案,UIAtlas圖集,AssetBundle等。 所以,首先建立一個管理資原始檔型別

python學習第二天筆記一,字符串常用方法

大寫字母 生成 with dsa AC nds 使用 star strip() 今天主要學習了字符串常用方法,字典,高效循環字典方式,以及文件讀寫。 字符串的常用方法: print(name.capitalize())#首字母大寫 print(name.istitle())

Nginx學習02--nginx上配置多站點

前言 有時候我們想在一臺nginx上配置多個站點,比如我們將www.webA.com以及www.webB.com同時部署到一臺nginx上,但是我們不能在nginx目錄裡同時執行兩個不同的站點。此時,我們可以利用虛擬目錄,比如,我們將站點A放在 /www/webA下,將站點B放在/w

A-003python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫(四)DataFrame資料結構

pandas資料結構:DataFrame 引入: 在上一節中已經介紹過了Series物件,Series物件可以理解為由一列索引和一列值,共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構,其中,在DataFrame中的每一列都是一個S

機器學習算法-python實現PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis),PAC的作用主要是減少數據集的維度,然後挑選出基本的特征。 PCA的主要思想是移動坐標軸,找

python學習筆記36:抓取去哪兒網的旅遊產品資料

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 書上這章開篇就說了儘量找JSON格式的資料,比較方便解析(在python裡直接轉換成字典),去哪兒網PC端返回的不是JSON資料,這裡抓取的是它的移動端的資料。 如果是就散落在網頁上,我覺得就像上篇學習的那

python學習筆記41:認識Pandas中的資料變形

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Pandas資料變形 關於stack()和unstack()見這裡和這裡。 import pandas as pd import numpy as np # 讀取杭州天氣檔案 df = pd.read

python學習筆記45:認識Matplotlib和pyecharts資料視覺化

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。 Matplotlib資料視覺化 資料準備 import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("E:/Data/p