業務解決方案/-數據結構與算法速成
業務解決方案:
0. 數據源加載
1. 特征工程: 字符轉數值/二值型/多值型 把字符型特征轉化成算法可以處理的數值表示,實現特征抽象.特征是二值型的, 如sex 這個字段有male 和fem 兩種,就把sex 抽象成0 和1。如果特征的數值是多值型, 如status,就按照嚴重程度從0 到1 再到2 來抽象.
2.數據預處理:數值轉double/歸一化到0 和1 之間 通過“類型轉換組件”先把數據類型全部轉化成 double 型(機器學習算法普遍對double 型數據的支持比較好),然後通過“歸一化組件” 對數據進行去量綱處理,把全部數值都歸一化到0 和1 之間
3.訓練和評估: 拆分組件”,在組件中數據按照7 : 3 的比例隨機拆分 70%的數據用來訓練模型,30%的數據用來預測。
4。模型評估: 因為本次實驗是一個二分類場景,已經通過“預測組件”拿到了預測 值和真實值的結果,但是我們需要更直觀地驗證實驗是否準確,所以選擇了“二分類評估 組件”對結果進行評估。
新聞文本分析
1。數據預處理及分詞,增加序號,分詞
2。關鍵詞提取 詞頻統計組件
3。文章分類。“三元組轉KV 組件”是文本向量化的常用算法,原理是把文本數據 轉成K:V 格式展示,
突擊-數據結構與算法速成
第一課:從基本數據結構說起,棧,隊列,鏈表的常規應用
第二課:基本數據結構之————棧,隊列,鏈表的奇淫技巧
第三課:進階數據結構之————堆,二叉樹的常規應用
第四課:進階數據結構之————樹的無奇不有的變形
第五課:進階數據結構之————散列表、搜索樹
第六課:必修算法之————排序
第七課:必修算法之————分治
第八課:必修算法之————貪心
第九課:必修算法之————搜索
第十課:圖算法之————拓撲排序、最小生成樹(Kruskal與Prim)
第十一課:圖算法之————單源最短路徑(Dijstra、Bellmanford、SPFA)及其變式使用
業務解決方案/-數據結構與算法速成