機器學習筆記（二）：python 模組pandas

阿新 • • 發佈：2018-12-11

1.讀csv檔案資料

import pandas as pd
Info = pd.read_csv('titanic_train.csv');
#print(type(Info))   	#Info的型別 <class 'pandas.core.frame.DataFrame'>
#Info.dtypes           #得到每個欄位的型別  字串型別變為objec
#help(type)            檢視函式使用

Info.head(10)          #顯示前10行
Info.tail(2)              #顯示最後2行

#Info.shape      # 輸出  (樣本數（行數）, 列數)

2.對讀入的csv檔案資料取值

Info['Name']   #得到這一列的資料
Info[['Name','Survived']]  #得到多列資料
Info['Name'][[1,2,3]]    #1，2，3行的Name資訊

Info.loc[2]    #得到第2個樣本的資料
Info.loc[2:6]   #得到 2-6
Info.loc[[2,5,7]]  #指定幾行樣本
Info.loc[88,"Name"]     #第88行的Name列資料
Info.loc[88:100,"Name"]     #第88-100的Name列資料
Info.loc[[88,100],"Name"]     #第88,和第100行的Name列資料
Info.loc[88:100,["Name","Survived"]]    #多列


print(Info['Fare'].max())    #這一列最大值
print(Info['Fare'].max()) 


#丟棄帶有NAN的所有項 通常情況下刪除行，使用引數axis = 0，刪除列的引數axis = 1,通常不會這麼做，那樣會刪除一個變數。
print(Info.dropna(axis=0));

Info.values   #得到一個值的 numpy.ndarray
Info.columns   #輸出每列的列名

3.排序，索引設定

#可選引數
#ascending  True降序， False升序
#axis = 0(預設)  就是按照列排序 ，此時第一個引數是列名
#axis = 1   按照行排序   此時第一個引數是行號
#inplace  是否替代原來的資料框
Info.sort_values("Fare",ascending=True,axis=0).head(2)

#drop為False 表示原來的索引列會被還原為普通列存起來，True則會把原來索引丟掉 , 預設False
Info.sort_values("Fare",ascending=True,axis=0).head(10).reset_index(drop=True)
#設定新索引
Info.sort_values("Fare",ascending=True,axis=0).head(10).set_index("Fare")

下面是找到以 d結尾的列名的值

#下面是找到以 d結尾的列名的值
cols = Info.columns.tolist()    #列 =》 lis
P = [];
for i in cols:
    if i.endswith('d'):
         P.append(i)       
Info[P]

如果每張票打6折是多少錢

#Info['Fare'] = Info['Fare']*0.6   注意，  =  的兩端緯度要相同（行數）

泰坦尼克遇難統計

#獲救者平均年齡

InfoS =Info.query("Survived == 1")
age_is_null  =  pd.isnull(InfoS['Age'])  #Age這一列 是否缺值的情況
Info_Age = InfoS['Age'][age_is_null == False];  #得到Age欄不為空的值
Info_Age.sum() / Info_Age.shape[0]    # 28.343689655172415
InfoS['Age'].mean()   #28.343689655172415  不去缺值也能得到一樣的答案，說明mean自動去缺值

#每個船艙的平均價格
Passenger_classes = [1,2,3];  #3個船艙
Info_P = Info['Pclass'] 
R = [];
for i in Passenger_classes:
    r = Info['Fare'][Info_P == i].mean()
    R.append(r);  
R

apply 自定義函式

#自定義函式
def func(col):
    a = col.loc[99];
    return a
#使用自定義的函式
h = Info.apply(func
Info.apply(func
#使用函式
import math  
Info["Fare"].apply(math.sqrt)

Series

#series 即矩陣的一行，或者一列 from pandas import Series

n= Info[“Name”].shape[0]

#構造一個Series Series（值，索引） A = Series(Info[“Name”].head(3).values,[‘c’,‘a’,‘c’])

A[‘a’] A[[‘a’,‘b’]]

A.sort_values() #值排序 a-z升序

Index = sorted(A.index.tolist()) #對索引進行排序 A.reindex(Index) #根據新索引順序，對老資料排序（索引對應的值不變）

機器學習筆記（二）：python 模組pandas

1.讀csv檔案資料 import pandas as pd Info = pd.read_csv('titanic_train.csv'); #print(type(Info)) #Info的型別 <class 'pandas.core.frame

python3學習筆記（二）：Python初識

區別說明 from 學習筆記情況不能 col 需要學習一、算法在開始認真地編程之前，首先來解釋下什麽是計算機程序設計。簡單地說，它就是告訴計算機要做什麽。計算機可以做很多事情，但是它不會自己思考，需要我們告訴它具體細節，並且使用計算機能夠理解的語言把算法告

機器學習筆記（二）：線性模型

線性模型是機器學習常用的眾多模型中最簡單的模型，但卻蘊含著機器學習中一些重要的基本思想。許多功能更為強大的非線性模型可線上性模型的基礎上通過引入層級結構或高維對映得到，因此瞭解線性模型對學習其他機器學習模型具有重要意義。本文主要介紹機器學習中常用的線性模型，內

斯坦福Andrew Ng---機器學習筆記（二）：Logistic Regression(邏輯迴歸)

內容提要這篇部落格的主要內容有： - 介紹欠擬合和過擬合的概念 - 從概率的角度解釋上一篇部落格中評價函式J(θ)” role=”presentation” style=”position: relative;”>J(θ)J(θ)為什麼用最

機器學習筆記（二）矩陣和線性代數例：用Python實現SVD分解進行圖片壓縮

線性代數基本只要是理工科，都是必修的一門課。當時學習的時候總是有一個疑惑，這個東西到底是幹嘛用的？為什麼數學家發明出這麼一套方法呢，感覺除了解方程沒發現有什麼大用啊！但隨著學習的深入，慢慢發現矩陣的應

機器學習筆記（一）：最小二乘法和梯度下降

一、最小二乘法 1.一元線性擬合的最小二乘法先選取最為簡單的一元線性函式擬合助於我們理解最小二乘法的原理。要讓一條直接最好的擬合紅色的資料點，那麼我們希望每個點到直線的殘差都最小。設擬合直線為

機器學習筆記（十）：TensorFlow實戰二（深層神經網路）

1 - 深度學習與深層神經網路深度學習的精確定義為：“一類通過多層非線性變換對高複雜性資料建模演算法的集合” 因此，多層神經網路有著2個非常重要的特性多層非線性 1.1 - 線性模型的侷限性線上性模型中，模型的輸出為輸入的加權和，假設一

Deep Learning 學習筆記（二）：神經網路Python實現

多層神經網路的Python實現。程式碼先貼上，程式設計的東西不解釋。程式碼中出現的SupervisedLearningModel、NNLayer和SoftmaxRegression，請參考上一篇筆記：Deep Learning 學習筆記（一）——softmax

TensorFlow學習筆記（二）：快速理解Tutorial第一個例子-MNIST機器學習入門

TensorFlow教程的第一章“MNIST機器學習入門”很簡單，用了一個很簡單的網路，實現了MNIST樣本訓練。教程連結：http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_

javascript學習筆記（二）：定義函數、調用函數、參數、返回值、局部和全局變量

兩個 cnblogs bsp 結果 value ava ase com 調用定義函數、調用函數、參數、返回值關鍵字function定義函數，格式如下： function 函數名(){ 函數體 } 調用函數、參數、返回值的規則和c語言規則類似。 1 <!DOC

CSS學習筆記（二）：特性

code 背景色左移 line tex lin 安裝其中 cas 一、顏色特性 1. 前景色：color 用種方式指定前景色，3種方式分別是rgb顏色，#16進制編碼，顏色名稱： color: rgb(100,100,100); color: #ee3e80; col

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

leg character ... sdk ocs 物體 mat 版本 sset 我們要在Unity3D中使用上模型和動畫，需要經過下面幾個階段的制作，下面以一個人形的模型開發為準來介紹。模型制作模型建模（Modelling）我們的美術在建模時一般會制作一個稱為

kubernetes學習筆記（二）：bashborad安裝配置

tag log struct recommend ide col create part describe 官方推薦方法：連接：https://kubernetes.io/docs/tasks/access-application-cluster/web-ui-dashb

Linux學習筆記（二）：實戰-根據微服務端口號關閉進程

java 地方 img linux學習區分殺死進程項目組 cannot home 前言現在項目組基本都用Springboot，每個服務占用一個端口號，有時需要選擇性的關閉，但在任務管理器上他們的名稱都是java.exe，無法區分，這才學以致用。 killPort.s

Guava學習筆記（二）：基礎（Joiner，Objects，Splitter及Strings）

nonnull obj expect null dto 字符情況 core cte 添加Maven依賴 JoinerTest import com.google.common.base.Joiner; import org.junit.Assert; import org

opencv 視覺項目學習筆記（二）：基於 svm 和 knn 車牌識別

its ++ eas -a rect() repr poi obj std 車牌識別的屬於常見的模式識別，其基本流程為下面三個步驟： 1）分割：檢測並檢測圖像中感興趣區域； 2）特征提取：對字符圖像集中的每個部分進行提取； 3）分類：判斷圖像快是不是車牌或者每

安卓開發學習筆記（二）：Android Stuidio無法引用Intent來創建對象，出現cannot resolve xxx

編譯器 port stact 消失 click first 紅色 xxx font 筆者在進行安卓開發時，發現自己的代碼語法完全沒有問題。尤其是創建intent對象的時候，語法完全是正確的，但是Android Stuidio卻顯示報錯，Intent類顯示為紅色，如圖所示：

Django學習筆記（二）：使用Template讓HTML、CSS參與網頁建立

Django學習筆記（二）：使用Template讓HTML、CSS參與網頁建立通過本文章實現：瞭解Django中Template的使用讓HTML、CSS等參與網頁建立利用靜態檔案應用網頁樣式一、Template的使用 Template是Django利用渲染器將模板檔案與資料內容結合

模式識別與機器學習筆記（二）機器學習的基礎理論

機器學習是一門對數學有很高要求的學科，在正式開始學習之前，我們需要掌握一定的數學理論，主要包括概率論、決策論、資訊理論。一、極大似然估計（Maximam Likelihood Estimation，MLE ）在瞭解極大似然估計之前，我們首先要明確什麼是似然函式（likelihoo

Javaweb學習筆記（二）：servlet初體驗、HTTP協議

目錄 1.Servlet體驗 1.1servlet的繼承體系 1.2手動開發動態web資源 1.3工具開發動態資源 2.HTTP協議 2.1概念 2.2請求資訊 2.2.1請求行 2.2.2請求頭 2.2.3空行與實體內容 2.3HttpServlet

機器學習筆記（二）：python 模組pandas

1.讀csv檔案資料

2.對讀入的csv檔案資料 取值

3.排序，索引設定

泰坦尼克遇難統計

Series

相關推薦

2.對讀入的csv檔案資料取值