1. 程式人生 > >Python數據分析與挖掘第一篇—基本介紹及環境搭建

Python數據分析與挖掘第一篇—基本介紹及環境搭建

sim python 模塊 功能 對數 numpy 分析 沒有 兩種

一,數據分析與挖掘簡介

  所謂數據分析,是對已有的數據進行分析,提取一些有價值的信息,比如平均數,標準差等。而數據挖掘,是對大量的信息進行分析和挖掘,得到一些未知的,有價值的信息。如今日頭條類的新聞推送就是通過對用戶的信息進行分析和挖掘,從而達到精準推送用戶感興趣的新聞。數據分析和數據挖掘往往是密不可分的,數據挖掘可以說是數據分析的進一步提升。

二,數據分析與挖掘的作用

  一句話說就是從數據中提取有用的信息。如信息推送,疾病治療,網站優化等等。隨著互聯網的發展和web2.0的興起,用戶大量的產生數據和瀏覽數據,那麽對數據進行分析就顯得尤為重要,能有效的利用數據,才能長久的發展。而另一方面,AI也成為人們熱議的話題,機器學習也離不開數據。因為數據分析和挖掘是滲透到互聯網的每一個角落。

三,數據分析和挖掘的一般步驟

  1. 分析需求
  2. 獲取數據
  3. 數據探索
  4. 數據預處理(數據清洗,數據變換,數據規約等)
  5. 數據建模
  6. 發布

三,模塊簡介與安裝(python)

  1. numpy:pyhton中沒有數組,而numpy模塊提供數組(C語言級別),是數據處理的基礎
  2. pandas:擁有兩種重要的數據類型(Series,DataFrame),主要用於數據導入,數據處理,數據探索。
  3. matplotlib:作圖,數據可視化
  4. scipy:進行數值計算,支持矩陣運算,提供許多高等數據處理功能,如積分,傅裏葉變換等
  5. statsmodels:統計分析
  6. Gensim:文本挖掘

  安裝技巧:
  技術分享圖片

  Python模塊下載網站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

Python數據分析與挖掘第一篇—基本介紹及環境搭建