你想知道的特徵工程，機器學習優化方法都在這了！收藏！

1. 特徵工程有哪些？

特徵工程，顧名思義，是對原始資料進行一系列工程處理，將其提煉為特徵，作為輸入供演算法和模型使用。從本質上來講，特徵工程是一個表示和展現數據的過程。在實際工作中，特徵工程旨在去除原始資料中的雜質和冗餘，設計更高效的特徵以刻畫求解的問題與預測模型之間的關係。

主要討論以下兩種常用的資料型別。

結構化資料。結構化資料型別可以看作關係型資料庫的一張表，每列都有清晰的定義，包含了數值型、類別型兩種基本型別；每一行資料表示一個樣本的資訊。
非結構化資料。非結構化資料主要包括文字、影象、音訊、視訊資料，其包含的資訊無法用一個簡單的數值表示，也沒有清晰的類別定義，並且每條數據的大小各不相同。

1.1 特徵歸一化

為了消除資料特徵之間的量綱影響，我們需要對特徵進行歸一化處理，使得不同指標之間具有可比性。例如，分析一個人的身高和體重對健康的影響，如果使用米（m）和千克（kg）作為單位，那麼身高特徵會在1.6～1.8m的數值範圍內，體重特徵會在50～100kg的範圍內，分析出來的結果顯然會傾向於數值差別比較大的體重特徵。想要得到更為準確的結果，就需要進行特徵歸一化（Normalization）處理，使各指標處於同一數值量級，以便進行分析。

對數值型別的特徵做歸一化可以將所有的特徵都統一到一個大致相同的數值區間內。最常用的方法主要有以下兩種。

線性函式歸一化（Min-Max Scaling）。它對原始資料進行線性變換，使結果對映到[0, 1]的範圍，實現對原始資料的等比縮放。歸一化公式如下，其中X

為原始資料，\(X_{max}、X_{min}\) 分別為資料最大值和最小值。

\[X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}\]
零均值歸一化（Z-Score Normalization）。它會將原始資料對映到均值為 0、標準差為1的分佈上。具體來說，假設原始特徵的均值為μ、標準差為σ，那麼歸一化公式定義為

\[z=\frac{x-u}{\sigma}\]

優點：訓練資料歸一化後，容易更快地通過梯度下降找到最優解。

當然，資料歸一化並不是萬能的。在實際應用中，通過梯度下降法求解的模型通常是需要歸一化的，包括線性迴歸、邏輯迴歸、支援向量機、神經網路等模型。但對於決策樹模型則並不適用。

1.2 類別型特徵

類別型特徵（Categorical Feature）主要是指性別（男、女）、血型（A、B、 AB、O）等只在有限選項內取值的特徵。類別型特徵原始輸入通常是字串形式，除了決策樹等少數模型能直接處理字串形式的輸入，對於邏輯迴歸、支援向量機等模型來說，類別型特徵必須經過處理轉換成數值型特徵才能正確工作。

序號編碼

序號編碼通常用於處理類別間具有大小關係的資料。例如成績，可以分為低、中、高三檔，並且存在“高>中>低”的排序關係。序號編碼會按照大小關係對類別型特徵賦予一個數值ID，例如高表示為3、中表示為2、低表示為1，轉換後依然保留了大小關係。
獨熱編碼(one-hot)

獨熱編碼通常用於處理類別間不具有大小關係的特徵。例如血型，一共有4個取值（A型血、B型血、AB型血、O型血），獨熱編碼會把血型變成一個4維稀疏向量，A型血表示為（1, 0, 0, 0），B型血表示為（0, 1, 0, 0），AB型表示為（0, 0, 1, 0），O型血表示為（0, 0, 0, 1）。對於類別取值較多的情況下使用獨熱編碼。
二進位制編碼

二進位制編碼主要分為兩步，先用序號編碼給每個類別賦予一個類別ID，然後將類別ID對應的二進位制編碼作為結果。以A、B、AB、O血型為例，下圖是二進位制編碼的過程。A型血的ID為1，二進位制表示為001；B型血的ID為2，二進位制表示為 010；以此類推可以得到AB型血和O型血的二進位制表示。

1.3 高維組合特徵的處理

為了提高複雜關係的擬合能力，在特徵工程中經常會把一階離散特徵兩兩組合，構成高階組合特徵。以廣告點選預估問題為例，原始資料有語言和型別兩種離散特徵，第一張圖是語言和型別對點選的影響。為了提高擬合能力，語言和型別可以組成二階特徵，第二張圖是語言和型別的組合特徵對點選的影響。

1.4 文字表示模型

文字是一類非常重要的非結構化資料，如何表示文字資料一直是機器學習領域的一個重要研究方向。

詞袋模型和N-gram模型

最基礎的文字表示模型是詞袋模型。顧名思義，就是將每篇文章看成一袋子詞，並忽略每個詞出現的順序。具體地說，就是將整段文字以詞為單位切分開，然後每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重則反映了這個詞在原文章中的重要程度。常用TF-IDF來計算權重。
主題模型

主題模型用於從文字庫中發現有代表性的主題（得到每個主題上面詞的分佈特性），並且能夠計算出每篇文章的主題分佈。
詞嵌入與深度學習模型

詞嵌入是一類將詞向量化的模型的統稱，核心思想是將每個詞都對映成低維空間（通常K=50～300維）上的一個稠密向量（Dense Vector）。K維空間的每一維也可以看作一個隱含的主題，只不過不像主題模型中的主題那樣直觀。

1.5 其它特徵工程

如果某個特徵當中有缺失值，缺失比較少的話，可以使用該特徵的平均值或者其它比較靠譜的資料進行填充；缺失比較多的話可以考慮刪除該特徵。
可以分析特徵與結果的相關性，把相關性小的特徵去掉。

1.6 特徵工程腦圖

2. 機器學習優化方法

優化是應用數學的一個分支，也是機器學習的核心組成部分。實際上，機器學習演算法 = 模型表徵 + 模型評估 + 優化演算法。其中，優化演算法所做的事情就是在模型表徵空間中找到模型評估指標最好的模型。不同的優化演算法對應的模型表徵和評估指標不盡相同。

2.1 機器學習常用損失函式

損失函式（loss function）是用來估量你模型的預測值f(x)與真實值Y的不一致程度，它是一個非負實值函式,通常使用L(Y, f(x))來表示，損失函式越小，模型的魯棒性就越好。常見的損失函式如下：

平方損失函式

\[L(Y,f(X))=\sum_{i=1}^{n}(Y-f(X))^2\]

Y-f(X)表示的是殘差，整個式子表示的是殘差的平方和，而我們的目的就是最小化這個目標函式值（注：該式子未加入正則項），也就是最小化殘差的平方和。而在實際應用中，通常會使用均方差（MSE）作為一項衡量指標，公式如下：

\[MSE=\frac{1}{n}\sum_{i=1}^{n}(Y_i^{'}-Y_i)^2\]

該損失函式一般使用線上性迴歸當中。
log損失函式

公式中的 y=1 表示的是真實值為1時用第一個公式，真實 y=0 用第二個公式計算損失。為什麼要加上log函式呢？可以試想一下，當真實樣本為1是，但h=0概率，那麼log0=∞，這就對模型最大的懲罰力度；當h=1時，那麼log1=0，相當於沒有懲罰，也就是沒有損失，達到最優結果。所以數學家就想出了用log函式來表示損失函式。

最後按照梯度下降法一樣，求解極小值點，得到想要的模型效果。該損失函式一般使用在邏輯迴歸中。
Hinge損失函式

\[L_i=\sum_{j\neq t_i}max(0,f(x_i,W)_j-(f(x_i,W)_{y_i}-\bigtriangleup))\]

SVM採用的就是Hinge Loss，用於“最大間隔(max-margin)”分類。

詳細見之前SVM的文章1.2.3

2.2 什麼是凸優化

凸函式的嚴格定義為，函式L(·) 是凸函式當且僅當對定義域中的任意兩點x，y和任意實數λ∈[0,1]總有：

\[L(\lambda_{}x+(1-\lambda)y)\leq\lambda_{}L(x)+(1-\lambda)L(y)\]

該不等式的一個直觀解釋是，凸函式曲面上任意兩點連線而成的線段，其上的任意一點都不會處於該函式曲面的下方，如下圖所示所示。

凸優化問題的例子包括支援向量機、線性迴歸等線性模型，非凸優化問題的例子包括低秩模型（如矩陣分解）、深度神經網路模型等。

2.3 正則化項

使用正則化項，也就是給loss function加上一個引數項，正則化項有L1正則化、L2正則化、ElasticNet。加入這個正則化項好處：

控制引數幅度，不讓模型“無法無天”。
限制引數搜尋空間
解決欠擬合與過擬合的問題。

詳細請參考之前的文章：線性迴歸--第5點

2.4 常見的幾種最優化方法

梯度下降法

梯度下降法是最早最簡單，也是最為常用的最優化方法。梯度下降法實現簡單，當目標函式是凸函式時，梯度下降法的解是全域性解。一般情況下，其解不保證是全域性最優解，梯度下降法的速度也未必是最快的。梯度下降法的優化思想是用當前位置負梯度方向作為搜尋方向，因為該方向為當前位置的最快下降方向，所以也被稱為是”最速下降法“。最速下降法越接近目標值，步長越小，前進越慢。梯度下降法的搜尋迭代示意圖如下圖所示：

缺點：靠近極小值時收斂速度減慢；直線搜尋時可能會產生一些問題；可能會“之字形”地下降。
牛頓法

牛頓法是一種在實數域和複數域上近似求解方程的方法。方法使用函式f (x)的泰勒級數的前面幾項來尋找方程f (x) = 0的根。牛頓法最大的特點就在於它的收斂速度很快。具體步驟：
- 首先，選擇一個接近函式 f (x)零點的 x0，計算相應的 f (x0) 和切線斜率f ' (x0)（這裡f ' 表示函式 f 的導數）。
- 然後我們計算穿過點(x0, f (x0)) 並且斜率為f '(x0)的直線和 x 軸的交點的x座標，也就是求如下方程的解：
  
  \[x*f^{'}(x_0)+f(x_0)-x_0*f^{'}(x_0)=0\]
- 我們將新求得的點的 x 座標命名為x1，通常x1會比x0更接近方程f (x) = 0的解。因此我們現在可以利用x1開始下一輪迭代。
由於牛頓法是基於當前位置的切線來確定下一次的位置，所以牛頓法又被很形象地稱為是"切線法"。牛頓法搜尋動態示例圖：

從本質上去看，牛頓法是二階收斂，梯度下降是一階收斂，所以牛頓法就更快。缺點：
- 牛頓法是一種迭代演算法，每一步都需要求解目標函式的Hessian矩陣的逆矩陣，計算比較複雜。
- 在高維情況下這個矩陣非常大，計算和儲存都是問題。
- 在小批量的情況下，牛頓法對於二階導數的估計噪聲太大。
- 目標函式非凸的時候，牛頓法容易受到鞍點或者最大值點的吸引。
擬牛頓法

擬牛頓法是求解非線性優化問題最有效的方法之一，本質思想是改善牛頓法每次需要求解複雜的Hessian矩陣的逆矩陣的缺陷，它使用正定矩陣來近似Hessian矩陣的逆，從而簡化了運算的複雜度。擬牛頓法和梯度下降法一樣只要求每一步迭代時知道目標函式的梯度。通過測量梯度的變化，構造一個目標函式的模型使之足以產生超線性收斂性。這類方法大大優於梯度下降法，尤其對於困難的問題。另外，因為擬牛頓法不需要二階導數的資訊，所以有時比牛頓法更為有效。如今，優化軟體中包含了大量的擬牛頓演算法用來解決無約束，約束，和大規模的優化問題。
共軛梯度法

共軛梯度法是介於梯度下降法與牛頓法之間的一個方法，它僅需利用一階導數資訊，但克服了梯度下降法收斂慢的缺點，又避免了牛頓法需要儲存和計算Hesse矩陣並求逆的缺點，共軛梯度法不僅是解決大型線性方程組最有用的方法之一，也是解大型非線性最優化最有效的演算法之一。在各種優化演算法中，共軛梯度法是非常重要的一種。其優點是所需儲存量小，具有步收斂性，穩定性高，而且不需要任何外來引數。

具體的實現步驟請參加wiki百科共軛梯度法。下圖為共軛梯度法和梯度下降法搜尋最優解的路徑對比示意圖：

3. 機器學習評估方法

混淆矩陣也稱誤差矩陣，是表示精度評價的一種標準格式，用n行n列的矩陣形式來表示。具體評價指標有總體精度、製圖精度、使用者精度等，這些精度指標從不同的側面反映了影象分類的精度。下圖為混淆矩陣

	正類	負類
預測正確	TP(True Positives)	FP(False Positives)
預測錯誤	FN(False Negatives)	TN(True Negatives)

3.1 準確率(Accuracy)

準確率（Accuracy）。顧名思義，就是所有的預測正確（正類負類）的佔總的比重。

\[Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\]

準確率是分類問題中最簡單也是最直觀的評價指標，但存在明顯的缺陷。比如，當負樣本佔99%時，分類器把所有樣本都預測為負樣本也可以獲得99%的準確率。所以，當不同類別的樣本比例非常不均衡時，佔比大的類別往往成為影響準確率的最主要因素。

3.2 精確率（Precision）

精確率（Precision），查準率。即正確預測為正的佔全部預測為正的比例。個人理解：真正正確的佔所有預測為正的比例。

\[Precision=\frac{TP}{TP+FP}\]

3.3 召回率(Recall)

召回率（Recall），查全率。即正確預測為正的佔全部實際為正的比例。個人理解：真正正確的佔所有實際為正的比例。

\[Recall=\frac{TP}{TP+FN}\]

為了綜合評估一個排序模型的好壞，不僅要看模型在不同 Top N下的Precision@N和Recall@N，而且最好繪製出模型的P-R（Precision- Recall）曲線。這裡簡單介紹一下P-R曲線的繪製方法。

P-R曲線的橫軸是召回率，縱軸是精確率。對於一個排序模型來說，其P-R曲線上的一個點代表著，在某一閾值下，模型將大於該閾值的結果判定為正樣本，小於該閾值的結果判定為負樣本，此時返回結果對應的召回率和精確率。整條P-R 曲線是通過將閾值從高到低移動而生成的。下圖是P-R曲線樣例圖，其中實線代表模型A的P-R曲線，虛線代表模型B的P-R曲線。原點附近代表當閾值最大時模型的精確率和召回率。

由圖可見，當召回率接近於0時，模型A的精確率為0.9，模型B的精確率是1，這說明模型B得分前幾位的樣本全部是真正的正樣本，而模型A即使得分最高的幾個樣本也存在預測錯誤的情況。並且，隨著召回率的增加，精確率整體呈下降趨勢。但是，當召回率為1時，模型A的精確率反而超過了模型B。這充分說明，只用某個點對應的精確率和召回率是不能全面地衡量模型的效能，只有通過P-R曲線的整體表現，才能夠對模型進行更為全面的評估。

3.4 F1值(H-mean值)

F1值（H-mean值）。F1值為算數平均數除以幾何平均數，且越大越好，將Precision和Recall的上述公式帶入會發現，當F1值小時，True Positive相對增加，而false相對減少，即Precision和Recall都相對增加，即F1對Precision和Recall都進行了加權。

\[\frac{2}{F_1}=\frac{1}{Precision}+\frac{1}{Recall}\]

\[F_1=\frac{2PR}{P+R}=\frac{2TP}{2TP+FP+FN}\]

3.4 ROC曲線

ROC曲線。接收者操作特徵曲線（receiver operating characteristic curve），是反映敏感性和特異性連續變數的綜合指標，ROC曲線上每個點反映著對同一訊號刺激的感受性。下圖是ROC曲線例子。

橫座標：1-Specificity，偽正類率(False positive rate，FPR，FPR=FP/(FP+TN))，預測為正但實際為負的樣本佔所有負例樣本的比例；

縱座標：Sensitivity，真正類率(True positive rate，TPR，TPR=TP/(TP+FN))，預測為正且實際為正的樣本佔所有正例樣本的比例。

真正的理想情況，TPR應接近1，FPR接近0，即圖中的（0,1）點。ROC曲線越靠攏（0,1）點，越偏離45度對角線越好。

AUC值

AUC (Area Under Curve) 被定義為ROC曲線下的面積，顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方，所以AUC的取值範圍一般在0.5和1之間。使用AUC值作為評價標準是因為很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好，而作為一個數值，對應AUC更大的分類器效果更好。

從AUC判斷分類器（預測模型）優劣的標準：

AUC = 1，是完美分類器，採用這個預測模型時，存在至少一個閾值能得出完美預測。絕大多數預測的場合，不存在完美分類器。
0.5 < AUC < 1，優於隨機猜測。這個分類器（模型）妥善設定閾值的話，能有預測價值。
AUC = 0.5，跟隨機猜測一樣（例：丟銅板），模型沒有預測價值。
AUC < 0.5，比隨機猜測還差；但只要總是反預測而行，就優於隨機猜測。

一句話來說，AUC值越大的分類器，正確率越高。

3.5 餘弦距離和歐式距離

餘弦距離：\(cos(A,B)=\frac{A*B}{||A||_2||B||_2}\)

歐式距離：在數學中，歐幾里得距離或歐幾里得度量是歐幾里得空間中兩點間“普通”（即直線）距離。

對於兩個向量A和B，餘弦距離關注的是向量之間的角度關係，並不關心它們的絕對大小，其取值範圍是[−1,1]。當一對文字相似度的長度差距很大、但內容相近時，如果使用詞頻或詞向量作為特徵，它們在特徵空間中的的歐氏距離通常很大；而如果使用餘弦相似度的話，它們之間的夾角可能很小，因而相似度高。此外，在文字、影象、視訊等領域，研究的物件的特徵維度往往很高，餘弦相似度在高維情況下依然保持“相同時為1，正交時為0，相反時為−1”的性質，而歐氏距離的數值則受維度的影響，範圍不固定，並且含義也比較模糊。

3.6 A/B測試

AB測試是為Web或App介面或流程製作兩個（A/B）或多個（A/B/n）版本，在同一時間維度，分別讓組成成分相同（相似）的訪客群組（目標人群）隨機的訪問這些版本，收集各群組的使用者體驗資料和業務資料，最後分析、評估出最好版本，正式採用。

3.7 模型評估方法

Holdout檢驗

Holdout 檢驗是最簡單也是最直接的驗證方法，它將原始的樣本集合隨機劃分成訓練集和驗證集兩部分。比方說，對於一個點選率預測模型，我們把樣本按照 70%～30% 的比例分成兩部分，70% 的樣本用於模型訓練；30% 的樣本用於模型驗證，包括繪製ROC曲線、計算精確率和召回率等指標來評估模型效能。

Holdout 檢驗的缺點很明顯，即在驗證集上計算出來的最後評估指標與原始分組有很大關係。為了消除隨機性，研究者們引入了“交叉檢驗”的思想。
交叉檢驗

k-fold交叉驗證：首先將全部樣本劃分成k個大小相等的樣本子集；依次遍歷這k個子集，每次把當前子集作為驗證集，其餘所有子集作為訓練集，進行模型的訓練和評估；最後把k次評估指標的平均值作為最終的評估指標。在實際實驗中，k經常取10。
自助法

不管是Holdout檢驗還是交叉檢驗，都是基於劃分訓練集和測試集的方法進行模型評估的。然而，當樣本規模比較小時，將樣本集進行劃分會讓訓練集進一步減小，這可能會影響模型訓練效果。有沒有能維持訓練集樣本規模的驗證方法呢？自助法可以比較好地解決這個問題。

自助法是基於自助取樣法的檢驗方法。對於總數為n的樣本集合，進行n次有放回的隨機抽樣，得到大小為n的訓練集。n次取樣過程中，有的樣本會被重複採樣，有的樣本沒有被抽出過，將這些沒有被抽出的樣本作為驗證集，進行模型驗證，這就是自助法的驗證過程。

3.8 超引數調優

為了進行超引數調優，我們一般會採用網格搜尋、隨機搜尋、貝葉斯優化等演算法。在具體介紹演算法之前，需要明確超引數搜尋演算法一般包括哪幾個要素。一是目標函式，即演算法需要最大化/最小化的目標；二是搜尋範圍，一般通過上限和下限來確定；三是演算法的其他引數，如搜尋步長。

網格搜尋，可能是最簡單、應用最廣泛的超引數搜尋演算法，它通過查詢搜尋範圍內的所有的點來確定最優值。如果採用較大的搜尋範圍以及較小的步長，網格搜尋有很大概率找到全域性最優值。然而，這種搜尋方案十分消耗計算資源和時間，特別是需要調優的超引數比較多的時候。因此，在實際應用中，網格搜尋法一般會先使用較廣的搜尋範圍和較大的步長，來尋找全域性最優值可能的位置；然後會逐漸縮小搜尋範圍和步長，來尋找更精確的最優值。這種操作方案可以降低所需的時間和計算量，但由於目標函式一般是非凸的，所以很可能會錯過全域性最優值。
隨機搜尋，隨機搜尋的思想與網格搜尋比較相似，只是不再測試上界和下界之間的所有值，而是在搜尋範圍中隨機選取樣本點。它的理論依據是，如果樣本點集足夠大，那麼通過隨機取樣也能大概率地找到全域性最優值，或其近似值。隨機搜尋一般會比網格搜尋要快一些，但是和網格搜尋的快速版一樣，它的結果也是沒法保證的。
貝葉斯優化演算法，貝葉斯優化演算法在尋找最優最值引數時，採用了與網格搜尋、隨機搜尋完全不同的方法。網格搜尋和隨機搜尋在測試一個新點時，會忽略前一個點的資訊；而貝葉斯優化演算法則充分利用了之前的資訊。貝葉斯優化演算法通過對目標函式形狀進行學習，找到使目標函式向全域性最優值提升的引數。

3.9 過擬合和欠擬合

過擬合是指模型對於訓練資料擬合呈過當的情況，反映到評估指標上，就是模型在訓練集上的表現很好，但在測試集和新資料上的表現較差。欠擬合指的是模型在訓練和預測時表現都不好的情況。下圖形象地描述了過擬合和欠擬合的區別。

防止過擬合：
- 從資料入手，獲得更多的訓練資料。
- 降低模型複雜度。
- 正則化方法，給模型的引數加上一定的正則約束。
- 整合學習方法，整合學習是把多個模型整合在一起。
防止欠擬合：
- 新增新特徵。
- 增加模型複雜度。
- 減小正則化係數。

4. 參考文獻

百面機器學習

5. 機器學習系列教程

GitHub：https://github.com/NLP-LOVE/ML-NLP

作者：@mantchs

GitHub：https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論！共同完善此專案！群號：【541954936】

相關推薦

你想知道的特徵工程，機器學習優化方法都在這了！收藏！

1. 特徵工程有哪些？特徵工程，顧名思義，是對原始資料進行一系列工程處理，將其提煉為特徵，作為輸入供演算法和模型使用。從本質上來講，特徵工程是一個表示和展現數據的過程。在實際工作中，特徵工程旨在去除原始資料中的雜質和冗餘，設計更高效的特徵以刻畫求解的問題與預測模型之間的關係。主要討論以下兩種常用的資料型

原型萬事通，你想知道（但不敢問）的都在這裏

生涯決定問題 image raft 新技術完成記得目標原型是我掌握新工具、平臺和技術的支撐框架。原型是驗證一個想法是否可行的強有力工具。它是我整個創作過程的中心，也是我與合作的人和企業的交流媒介。我對原型深有

Hive學習筆記，你想知道的Hive

one 什麽 pac 語句工具 center 版本推薦 serve 1、什麽是Hive（蜂巢）? 　　Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，並提供類SQL查詢功能。Hive是基於HDFS之上的數據倉庫，也就是說Hive

Hbase學習筆記，你想知道的Hbase

1、什麼是Hbase？　　HBase是一個構建在HDFS之上的、分散式的、面向列的開源資料庫，不同於一般的關係資料庫，它是一個適合於非結構化海量資料儲存的資料庫，是由Google Bigtable的開源實現，它主要用於儲存海量資料，是Hadoop生態系統中的重要一員。Hbase可以使用shell、web

關於運維，你想知道的都在這兒了；運維專欄推薦及精選文章合集

運維網絡運維合集推薦文章博客專欄推薦：老司機網絡運維幹貨集錦（含路由交換安全Qos優化）簡介：新西蘭某大型企業首席網絡設計師，負責全網的總體設計規劃，包含MPLS網絡總體規劃設計，數據中心規劃設計，全新西蘭分支機構WAN網絡和國際互聯網絡規劃設計等。網絡運維，這是一個多坑的世

【Python】動手分析天貓內衣售賣數據，得到你想知道的信息

exce time 2.0 show pro val 代碼中國 control 　　大家好，我是一個老實人，現在我決定用 Python 抓取天貓內衣銷售數據，並分析得到中國女性普遍的罩杯數據，和最受歡迎的內衣顏色是什麽。　　希望看完之後你能替你女朋友買上一件心怡的內衣

學習Python你要知道的知識，不得不看

Python被譽為全世界高效的程式語言，同時也被稱作是“膠水語言”，那它為何能如此受歡迎，下面我們就來說說Python入門學習的必備知識點，也就是它為何能夠如此受歡迎的原因.。 1、Python適用於哪些應用場景? 這個沒有固定答案，很多人都說Python不適合開發GUI的程式，但Pytho

kotlin 關於lambda，你想知道的都在這裡

從Java語言轉到Kotlin，最讓人頭疼的問題恐怕就是lambda表示式了。 lambda，準確的中文翻譯是：匿名函式。不過，在Kotlin語言中本身就有匿名函式的概念，為了區分，我們姑且把它叫做Lambda表示式。對於Java程式設計師來說，這是一個比較新的概念。而在計算機領域

入門學習Python你要知道的知識，不得不看

Python被譽為全世界高效的程式語言，同時也被稱作是“膠水語言”，那它為何能如此受歡迎，下面我們就來說說Python入門學習的必備知識點，也就是它為何能夠如此受歡迎的原因.。 1、Python適用於哪些應用場景? 這個沒有固定答案，很多人都說Python不適合開發GUI的程式，但Python自己的IDE

關於SD-WAN，你想知道的都在這裡

SD-WAN是什麼？ SD-WAN，即軟體定義廣域網路，是將SDN/NFV/Cloud等技術應用到廣域網中所形成的一種網路服務。這種服務通常用於連線不同區域的企業分支機構、資料中心、公有云等。 SD-WAN出現背景隨著“網際網路+”的深入推進，企業數字化程序明顯加快，資料互動爆發式增長，特別是電子

【Python】動手分析天貓內衣售賣資料，得到你想知道的資訊

　　大家好，我是一個嚴謹的老實人，現在我決定手把手教你怎麼用 Python 抓取天貓內衣銷售資料，並分析得到中國女性普遍的罩杯資料，和最受歡迎的內衣顏色是什麼。　　希望看完之後你能替你女朋友買上一件心怡的內衣。　　我們先看看分析得到的成果是怎樣的？（講的很詳細，推薦跟著敲一遍）　　　　　　

大佬為你揭祕微信支付的系統架構，你想知道的都在這裡了

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~ 本文由李躍森發表於雲+社群專欄李躍森，騰訊雲PostgreSQL首席架構師，騰訊資料庫團隊架構師，負責微信支付商戶系統核心資料庫的架構設計和研發，PostgreSQL-x2社群核心成員，獲多項國家發明專利。從事PG核心開發和架構設計超過10年

機器學習+特徵工程vs深度學習—如何選擇

對於資料探勘和處理類的問題，使用一般的機器學習方法，需要提前做大量的特徵工程工作，而且特徵工程的好壞會在很大程度上決定最後效果的優劣（也就是常說的一句話：資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已）。使用深度學習的話，特徵工程就沒那麼重

一文看完2018蘋果秋季新品釋出會，你想知道的問題這裡都有答案！

蘋果2018秋季新品釋出會結束了。此處釋出會看完下來內心毫無波瀾，並沒有多少驚豔到人的地方，倒是處處看到了國產手機發佈會的影子。話不多說，下文給大家彙總一下本次蘋果新品釋出會的重點。命名有國產手機的氣息和此前網傳的名字有一些出入，本次釋出的3款新機名字分別為iPhone Xs（5.8英寸

關於MySQL慢日誌，你想知道的都在這

作者介紹鄒鵬，現任職於騰訊雲資料庫團隊，負責騰訊雲資料庫MySQL中介軟體研發，多年的資料庫、網路安全研發經驗，對雲端計算平臺的網路、計算、儲存、安全有著深入的瞭解，在MySQL的高可用、高可靠、中介軟體方面有豐富的經驗。目錄：什麼是慢日誌？什麼情況下產生慢日誌？慢日誌相關引數慢日誌

史上最全！支援EOS對映的交易所統計|關於EOS對映，你想知道的都在這

01EOS對映是什麼？為什麼要進行對映？EOS眾籌將在北京時間2018年6月2日06:59:59結束，主網上線在即，你的EOS做好映射了嗎？當下EOS主網還沒有上線，市場上流通的EOS只是基於以太坊網路的“臨時代幣”，並不是真正意義上的EOS。當主網上線後，這些代幣將完成自己

關於華為榮耀 V10，這裡有你想知道的所有 AI 功能

11 月 28 日，華為在北京工業大學體育館釋出了榮耀 V10 手機。同樣，這也是一場 AI 貫穿整場的釋出會。這款手機採取了 5.99 英寸的全面屏，有前置指紋功能，有雙攝像頭，一共有四種顏色：極光藍、幻夜黑、沙流金、魅麗紅。邀請了趙麗穎、孫楊和胡歌代言手機。價格、配置和發售時間支

Android Toolbar，你想知道的都在這裡了

Android 3.0之後，Google引入了ActionBar，想統一安卓應用的導航欄樣式。但由於ActionBar難以定製，很大程度上限制了開發人員，比如標題文字大小、間距等不易實現個性化，很多開發者放棄了ActionBar的使用，而是使用普通的ViewGroup來封裝自己的App

關於區塊鏈通證模型，你想知道的都在這

簡介區塊鏈最重要的應用就是將實物價值或虛擬資產對映成鏈上Token，通過資產上鍊，實現跨地域、低成本的進行資產交易與轉移，本質上是權益再分配，核心是提高激勵性和效益。很多人把Token譯為“代幣”，我更認同元道先生翻譯的版本——“通證”。因為不是所有Tok

關於微信跳轉，這裏有你想知道的一切weixin://dl/business/?ticket=td9cd0bf056c561fe9f56e33c61df61bf

ech pen rect ref ray content lease mobile else 糾結了了很久，還是放出來部分接口，相信能夠看到這篇文章的人也基本都是需求比較強烈的。京東： https://wq.jd.com/mjgj/link/GetOpenLin