1. 程式人生 > >1.1 What Is This Book About(這本書是關於什麼的)

1.1 What Is This Book About(這本書是關於什麼的)

CHAPTER 1 Preliminaries(預備知識)

1.1 What Is This Book About?(這本書是關於什麼的)

這本書關心的是如何用Python對資料進行處理和清洗等操作。本書的目的是作為一個指南,講解使用Python語言和它的一些處理資料的庫和工具,這能讓我們成為一個有效率的資料分析師(data analyst)。本書會告訴我們,使用Python語言的情況下,我們需要用那些工具來進行資料分析。

What Kinds of Data?(什麼種類的資料)

我們說的資料指的是結構化的資料(structured data),比如:

  • 表格型資料,每一列有不同的型別(字串,數字,日期等)。這種情況是我們最常見到的,常見於用tab-或逗號分隔的檔案(比如CSV檔案)
  • 多維陣列(Multidimensional arrays,比如矩陣)
  • 用一列作為鍵(比如SQL中的主鍵和外來鍵),整合多個表格的資料
  • 時間序列資料

大部分資料都可以被轉化為結構化資料,方便進行分析和建模。如果無法轉化,那麼我們可以從資料集中抽取特徵,做成一個結構化的形式。舉個例子,新聞可以被處理為單詞頻率表格,然後我們可以對其進行情感分析(sentiment analysis)。

表格型程式,比如微軟的Excel,可能是當今最廣泛的資料分析工具,所以沒必要把資料分析想得很難。