1. 程式人生 > >小白入門學習資料分析,為什麼都選擇python入門?

小白入門學習資料分析,為什麼都選擇python入門?

小白入門資料分析,最大的困惑就是從哪些入手,科多大資料公司通過三年的大資料專項人才培訓專案,對零基礎的小白接觸的多了,自然就比較瞭解了,本文主要探討資料分析入門,為什麼選擇python語言,以及python語言的作用有哪些?

1、傳說中的WEB開發

在國內,豆瓣一開始就使用Python作為web開發基礎語言,知乎的整個架構也是基於Python語言,這使得web開發這塊在國內發展的很不錯。

儘管目前Python並不是做Web開發的首選,但一直都佔有不可忽視的一席。Python中有各類Web框架,無論是簡單而可以自由搭配的微框架還是全功能的大型MVC框架都一應俱全,這在需要敏捷開發的

Web專案中也是十分具有優勢的。廣泛使用(或曾經廣泛使用)Python提供的大型Web服務包括知乎、豆瓣、Dropbox等網站。加之Python本身的膠水特性,很容易實現在需要大規模效能級計算時整合其它語言,同時保留Web開發時的輕便快捷。

使用Python中的Flask搭建一個Web版的Hello world,也只需要幾行而已:

from flask import Flask

app = Flask(__name__)

@app.route("/")

def hello():

return "Hello World!"

if __name__ == '__main__':

app.run()

除此之外,Python中還有大量開箱即用的模組,用於與各種其它網站的對接等相關功能。如果希望開發個微信公眾號相關功能,wechat-sdk/weixin-python等包,能夠使你幾乎完全不用管文件中提及的各種伺服器互動細節,專注於功能實現即能完成開發。

目前,國內的Python web開發主要有兩個技術棧:Django Flask

2、網路爬蟲

網路爬蟲是Python比較常用的一個場景,國際上,google在早期大量地使用Python語言作為網路爬蟲的基礎,帶動了整個Python語言的應用發展。以前國內很多人用採集器搜刮網上的內容,現在用

Python收集網上的資訊比以前容易很多了。Python在這個方面有許多工具上的積累,無論是用於模擬HTTP請求的Requests、用於HTML DOM解析的PyQuery/BeautifulSoup、用於自動化分散式爬取任務的Scrapy,還是用於最簡化資料庫訪問的各種ORM,都使得Python成為資料爬取的首選語言之一。特別是,爬取後的資料分析與計算是Python最為擅長的領域,非常容易整合。目前Python比較流行的網路爬蟲框架是功能非常強大的scrapy

3、人工智慧(AI)與機器學習

人工智慧是現在非常火的一個方向,AI熱潮讓Python語言的未來充滿了無限的潛力。現在釋放出來的幾個非常有影響力的AI框架,大多是Python的實現,為什麼呢?因為Python足夠動態、具有足夠效能,這是AI技術所需要的技術特點。比如基於Python的深度學習庫、深度學習方向、機器學習方向、自然語言處理方向的一些網站基本都是通過Python來實現的。

機器學習,尤其是現在火爆的深度學習,其工具框架大都提供了Python介面。Python在科學計算領域一直有著較好的聲譽,其簡潔清晰的語法以及豐富的計算工具,深受此領域開發者喜愛。

早在深度學習以及Tensorflow等框架流行之前,Python中即有scikit-learn,能夠很方便地完成幾乎所有機器學習模型,從經典資料集下載到構建模型只需要簡單的幾行程式碼。配合Pandasmatplotlib等工具,能很簡單地進行調整。

TensorflowPyTorchMXNetKeras等深度學習框架更是極大地拓展了機器學習的可能。使用Keras編寫一個手寫數字識別的深度學習網路僅僅需要寥寥數十行程式碼,即可藉助底層實現,方便地呼叫包括GPU在內的大量資源完成工作。

值得一提的是,無論什麼框架,Python只是作為前端描述用的語言,實際計算則是通過底層的C/C++實現。由於Python能很方便地引入和使用C/C++專案和庫,從而實現功能和效能上的擴充套件,這樣的大規模計算中,讓開發者更關注邏輯於資料本身,而從記憶體分配等繁雜工作中解放出來,是Python被廣泛應用到機器學習領域的重要原因。

4、資料分析處理

資料分析處理方面,Python有很完備的生態環境。大資料分析中涉及到的分散式計算、資料視覺化、資料庫操作等,Python中都有成熟的模組可以選擇完成其功能。對於Hadoop-MapReduceSpark,都可以直接使用Python完成計算邏輯。這無論對於資料科學家還是對於資料工程師而言都是十分便利的。

5、伺服器運維及其它小工具

Python對於伺服器運維而言也有十分重要的用途。由於目前幾乎所有Linux發行版中都自帶了Python直譯器,使用Python指令碼進行批量化的檔案部署和執行調整都成了Linux伺服器上很不錯的選擇。Python中也包含許多方便的工具,從調控ssh/sftp用的paramiko,到監控服務用的supervisor,再到bazel等構建工具,甚至conan等用於C++的包管理工具,Python提供了全方位的工具集合,而在這基礎上,結合Web,開發方便運維的工具會變得十分簡單。

6、桌面程式

除此之外,Python也可以用於桌面軟體開發(如sublime text等),甚至移動端開發(參看kivy)。Python簡潔方便,各種工具包齊全的環境,能大幅度減少開發者的負擔。著名的UI框架QTPython語言的實現版本PyQTPython簡單易用的特性加上QT的優雅,可以很輕鬆的開發介面複雜的桌面程式,並且能輕鬆實現跨平臺特性。

7、多媒體應用

可以用Python裡面的PILPiddleReportLab 等模組對圖象、聲音、視訊、動畫等進行處理,還可以用Python生成動態圖表和統計分析圖表。另外,還可以利用PyOpenGl模組非常快速有效的編寫出三維場景。

曾經為阿貝斯(Abyss)”星際迷航(Star Trek)”“Indiana Jones”等超級大片製作過特技和動畫的工業光魔公司(Industrial Light)就採用Python進行商業動畫製作。然而在很早以前,Python就是一種遊戲程式設計的輔助工具,在《星球大戰》的製作中扮演了重要的角色,現在,完全可以通過Python寫出非常棒的遊戲程式。