Python數據分析與挖掘第一篇—基本介紹及環境搭建
阿新 • • 發佈:2018-10-19
sim python 模塊 功能 對數 numpy 分析 沒有 兩種
一,數據分析與挖掘簡介
所謂數據分析,是對已有的數據進行分析,提取一些有價值的信息,比如平均數,標準差等。而數據挖掘,是對大量的信息進行分析和挖掘,得到一些未知的,有價值的信息。如今日頭條類的新聞推送就是通過對用戶的信息進行分析和挖掘,從而達到精準推送用戶感興趣的新聞。數據分析和數據挖掘往往是密不可分的,數據挖掘可以說是數據分析的進一步提升。
二,數據分析與挖掘的作用
一句話說就是從數據中提取有用的信息。如信息推送,疾病治療,網站優化等等。隨著互聯網的發展和web2.0的興起,用戶大量的產生數據和瀏覽數據,那麽對數據進行分析就顯得尤為重要,能有效的利用數據,才能長久的發展。而另一方面,AI也成為人們熱議的話題,機器學習也離不開數據。因為數據分析和挖掘是滲透到互聯網的每一個角落。
三,數據分析和挖掘的一般步驟
- 分析需求
- 獲取數據
- 數據探索
- 數據預處理(數據清洗,數據變換,數據規約等)
- 數據建模
- 發布
三,模塊簡介與安裝(python)
- numpy:pyhton中沒有數組,而numpy模塊提供數組(C語言級別),是數據處理的基礎
- pandas:擁有兩種重要的數據類型(Series,DataFrame),主要用於數據導入,數據處理,數據探索。
- matplotlib:作圖,數據可視化
- scipy:進行數值計算,支持矩陣運算,提供許多高等數據處理功能,如積分,傅裏葉變換等
- statsmodels:統計分析
- Gensim:文本挖掘
安裝技巧:
Python模塊下載網站:https://www.lfd.uci.edu/~gohlke/pythonlibs/
Python數據分析與挖掘第一篇—基本介紹及環境搭建