1. 程式人生 > >資料處理流程總結

資料處理流程總結

爬蟲:

1.工具 python requests包,偽造header,IP池代理

2ThreadPoolExecutor模組,多程序抓取未成功獲得的網頁池。

做一個爬取成功URL池listyes 和 不成功URL池子listno,初始賦值listno=全部URL。每次只從失敗的listno中進行


    #多執行緒
    def multithreading():
        number = listno        #每次爬取未爬取成功的頁
        event = []

        with ThreadPoolExecutor(max_workers=10) as executor:

            for result in executor.map(network_programming,
                                    number, chunksize=10):
                event.append(result)

    return event

    event = multithreading()

    

    for i in event:

        爬蟲成功

        listyes.append(頁碼)

        listno.remove(頁碼)


3.隨機等待

4.從抓下來的html中 re正則表示式 或者xpath方式 抓想要的目標。BEAUTIFULSOUP BS4包好用

遇到驗證碼,可考慮採用機器學習類數字識別api暴力破解。

當未成功抓取的網頁池為空,或者總執行時間到達預期,over


資料匯出:

把資料匯出為csv或者html,或者conn連線資料庫(MYSQLDB包),匯入到資料庫



資料清洗:

去重,空白紙填充...... 資料標準化

    可用工具excel,SPSS ,PYTHON

EXCEL自帶拆分工具,有效針對如圖原生的list輸出的csv:


用逗號,分列就完事了



同理,python split函式也是隔開 “,”

考慮 某些連續變數 遠比 其它變數 大小範圍廣 , 考慮 取對數 , 或者 X1-Xmin/Xmax-Xmin


資料建模和分析

1  SPSS MODLER 引用資料,建立 流。


選出 檢驗結果最好的N個演算法模型 ,對它們再取 權重 ,完成 混合模型


2 machine learning:

1. 其實SPSS MODLER本身也是是用機器學習演算法 進行 分類和迴歸的

2. PYTHON 的 SKLEARN 包

3. 谷歌 TEBSORFLOW ,谷歌全開源 ,還有中文教程


考慮 訓練集 ,驗證集(google tensorflw教程提倡以此來微調引數), 檢驗集 

演算法(術):線性迴歸,決策樹,貝葉斯,SVM,K近鄰 , K均值 ,神經網路(若隱藏層大於2,就算深度學習了吧)

思路(道):梯度下降,貪婪演算法


3 普通商務企業,資料量小於 10萬的話,還是excel 吧。散點圖、直方圖、餅圖,國企和非網際網路企業最為常用


視覺化可考慮 PYTHON matplotlib

文字:jieba分詞、wordcloud視覺化
資料柱形圖視覺化 barh
資料直方圖視覺化 hist
資料散點圖視覺化 scatter
資料迴歸分析視覺化 regplot