1. 程式人生 > >業務解決方案/-數據結構與算法速成

業務解決方案/-數據結構與算法速成

特征 常用算法 最小生成樹 變形 新聞 通過 是把 dash 單源最短路

業務解決方案:

0. 數據源加載

1. 特征工程: 字符轉數值/二值型/多值型 把字符型特征轉化成算法可以處理的數值表示,實現特征抽象.特征是二值型的, 如sex 這個字段有male 和fem 兩種,就把sex 抽象成0 和1。如果特征的數值是多值型, 如status,就按照嚴重程度從0 到1 再到2 來抽象.

2.數據預處理:數值轉double/歸一化到0 和1 之間 通過“類型轉換組件”先把數據類型全部轉化成 double 型(機器學習算法普遍對double 型數據的支持比較好),然後通過“歸一化組件” 對數據進行去量綱處理,把全部數值都歸一化到0 和1 之間

3.訓練和評估: 拆分組件”,在組件中數據按照7 : 3 的比例隨機拆分 70%的數據用來訓練模型,30%的數據用來預測。

4。模型評估: 因為本次實驗是一個二分類場景,已經通過“預測組件”拿到了預測 值和真實值的結果,但是我們需要更直觀地驗證實驗是否準確,所以選擇了“二分類評估 組件”對結果進行評估。

新聞文本分析

1。數據預處理及分詞,增加序號,分詞

2。關鍵詞提取 詞頻統計組件

3。文章分類。“三元組轉KV 組件”是文本向量化的常用算法,原理是把文本數據 轉成K:V 格式展示,

突擊-數據結構與算法速成

第一課:從基本數據結構說起,棧,隊列,鏈表的常規應用

第二課:基本數據結構之————棧,隊列,鏈表的奇淫技巧

第三課:進階數據結構之————堆,二叉樹的常規應用

第四課:進階數據結構之————樹的無奇不有的變形

第五課:進階數據結構之————散列表、搜索樹

第六課:必修算法之————排序

第七課:必修算法之————分治

第八課:必修算法之————貪心

第九課:必修算法之————搜索

第十課:圖算法之————拓撲排序、最小生成樹(Kruskal與Prim)

第十一課:圖算法之————單源最短路徑(Dijstra、Bellmanford、SPFA)及其變式使用

業務解決方案/-數據結構與算法速成