Fisher準則一維聚類

阿新 • • 發佈：2018-01-24

clas += log 間距 numpy spa post source 變化

在做FAQ系統時，用戶輸入一個查詢之後，返回若幹個打好分數的文檔。對於這些文檔，有些是應該輸出的，有些是不應該輸出的。那麽應該在什麽地方截斷呢？

這個問題其實是一個聚類問題，在一維空間中把若幹個點聚成兩類。
聚類就有標準：類內距離盡量小、類間距離盡量大。
由此想到Fisher準則。

那麽給定一個浮點數組，尋找這個浮點數組的fisher點，應該如何實現呢？
fisher準則目標函數為fisher=(s1+s2)/(m1-m2)^2。
可以用O（n）復雜度實現。

但是有沒有更快速的方法呢？
從左往右掃描，如果fisher準則函數是一個類似二次函數的形狀，那麽就可以利用“三分法”求極值的策略將復雜度降為O（logN）。

為了驗證是否滿足“類似二次函數”的特性，我隨機出一堆數字，求fisher曲線。
實驗結果：並不滿足“類似二次函數”，但是大概率地滿足此條件。

本實驗一共測試了10000組長度在3~1000之間的數組。
下面的0，1，2...表示曲線斜率方向變化次數，右面數字表示出現次數。
可以發現，那些不滿足“類似二次函數”的圖像看上去也都近似“V”形。

所以，如果為了較高的速度，可以使用三分法；如果為了較高的準確率，可以使用O（n）掃描法。

實驗代碼如下：

import numpy as np
import tqdm

def 
 getfisher(a):
    s = np.sum(a)
    ss = np.sum(a * a)
    now_s = 0
    now_ss = 0
    ret = []
    for i in range(len(a) - 1):
        now_s += a[i]
        now_ss += a[i] ** 2
        l_s = now_s / (i + 1)
        l_ss = now_ss / (i + 1)
        r_s = (s - now_s) / (len(a) - 1 - i)
        r_ss = (ss - 
 now_ss) / (len(a) - 1 - i)
        fisher = (l_ss + r_ss) / (l_s - r_s) ** 2
        ret.append(fisher)
    return ret


def checkright(a):
    dir = 0
    cnt = 0
    for i in range(1, len(a)):
        if dir != np.sign(a[i] - a[i - 1]) and dir != 0 and np.abs(a[i]-a[i-1])>1e-2:
            cnt += 1
        dir = np.sign(a[i] - a[i - 1])
    return cnt


def main():
    c = dict()
    for i in tqdm.tqdm(range(10000)):
        x = np.sort(np.random.rand(np.random.randint(3, 1000)))
        f = getfisher(x)
        # plt.plot(x[:-1], f)
        cnt = checkright(f)
        if cnt not in c:
            c[cnt] = 0
        c[cnt] += 1
        # plt.show()
    print(c)


if __name__ == '__main__':
    main()

Fisher準則一維聚類

clas += log 間距 numpy spa post source 變化在做FAQ系統時，用戶輸入一個查詢之後，返回若幹個打好分數的文檔。對於這些文檔，有些是應該輸出的，有些是不應該輸出的。那麽應該在什麽地方截斷呢？這個問題其實是一個聚類問題，在一維空間中把若幹個

一趟聚類（One-pass Cluster）及python實現

最近在學資料探勘的相關基礎知識，希望對學習的內容進行整理，以下轉自很棒的師兄的部落格~ 一趟聚類簡介一趟聚類演算法是由蔣盛益教授提出的無監督聚類演算法，該演算法具有高效，簡單的特點。資料集只需要遍歷一遍即可完成聚類。演算法對超球狀分佈的資料有良好的識別，對凸型資料分佈識別較差。一

LDA使用一文字聚類

演算法流程： 1. 對給定的語料先分詞，得到分詞後的語料； 2. 構造詞典，corpus_tfidf, 最後構造 corpus_lda 3. Kmeans聚類，pred 是對語料的聚類結果列表。 pred = kmean.predict(tfidf_vec) #!/usr/bin

Machine Learning第八講[非監督學習] -- （一）聚類

一、Unsupervised Learning: Introduction（非監督學習簡介）之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子，通過給出一系統樣本，通過這些樣本去訓練模型進行預測，在這些樣本中，是包含y標籤的，即實際值。在非監督學習中，我們給一系列樣

大資料：Spark mlib(一) KMeans聚類演算法原始碼分析

1. 聚類1.1 什麼是聚類？所謂聚類問題，就是給定一個元素集合D，其中每個元素具有n個可觀察屬性，使用演算法將集合D劃分成k個子集，要求每個子集內部的元素之間相異度儘可能低，而不同子集的元素相異度儘可能高，其中每個子集叫做一個簇。1.2 KMeans 聚類演算法K-Mean

聚類演算法 sklearn k_means (返回一維資料的最優聚類)

from sklearn.cluster import KMeans import numpy import collections import pandas from sklearn import

Java 一維陣列實現一個棧（Stack）類

使用一維陣列編碼實現一個棧（Stack）類，要求提供以下操作：（1）boolean isEmpty()：判斷棧當前是否為空；（2）入棧操作void push(obj)：把資料元素obj插入堆疊；（3）出棧操作Object pop()：出棧，並返回刪除的資料元素；（4）Object get

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

CNN autoencoder 先降維再使用kmeans進行圖像聚類是不是也可以降維以後進行iforest處理？

upload fir pixel net created plot addition === speed import keras from keras.datasets import mnist from keras.models import Sequential f

CNN autoencoder 先降維再使用kmeans進行影象聚類是不是也可以降維以後進行iforest處理？

import keras from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Activation, Flatten from keras.layers

Java一維陣列定義和初始化、二維陣列定義和初始化、傳參方式、Arrays類

陣列陣列是Java中的一種資料型別，是一組資料的集合，陣列中的每個成員稱為元素。Java中的陣列是類型別（引用型別），Java的同一個陣列中，只能存放相同型別的資料元素。一維陣列一維陣列的定義方式一維陣列有以下兩種定義方式，推薦使用第一種定義方式 <資料型別

JAVA——自定義類物件的一維陣列二維陣列的定義以及賦值的注意事項

今天用JAVA模擬了一次保皇問題，真的是被噁心到了，但同時發現了自己對於自定義類物件的陣列，又忘了，在這裡進行總結複習一下。再次膜拜CSDN大佬寫的部落格，幫助大的一批。ORZ；一、自定義類物件一維陣列在整理之前，先貼出一段程式碼： package ceshi; import

聚類分析（一）介紹

一、聚類演算法 1.1引言聚類分析，在英文中是Cluster analysis，是機器學習中無監督學習的典型代表。無監督學習沒有訓練過程，給定一些樣本資料，讓機器學習演算法直接對這些資料進行分析，得到資料的某些知識。而無監督學習的另外一類典型演算法是資料降維，它將一個高維向量變換到低維空

通過TSNE將高維資料聚類結果以二維的方式展示出來

#!/usr/bin/env python #-*- coding:utf-8 -*- #接k_means.py #k_means.py中得到三維規範化資料data_zs； #r增加了最後一列，列索引為“聚類類別” from sklearn.manifold import TSNE tsne=

【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

因本介面自定義功能較多，且底層演算法自己搭建，故不再使用其他三方庫，只用whoosh其他演算法自己寫。 # -*- coding: utf-8 -*- from whoosh.fields import Schema,TEXT,ID from whoosh.index i

聚類演算法（一）—— k-means演算法以及其改進演算法

聚類演算法是一種無監督學習，它把資料分成若干類，同一類中的資料的相似性應儘可能地大，不同類中的資料的差異性應儘可能地大。聚類演算法可分為“軟聚類”和“硬聚類”，對於“硬聚類”，樣本中的每一個點都是 100%確定分到某一個類別；而“軟聚類”是指樣本點以一定的概率被分

原型聚類（一）k均值演算法和python實現

原型聚類原型聚類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。這裡的“原型”我認為實際上就是“原來的模型”，這類演算法企圖模擬出生成資料集的模型。 k均值演算法（k-means

一文讀懂聚類

我們不管是做分類還是迴歸，我們拿到的資料都是這麼一對資料，也就是，我們那到是的是這麼一堆資料，我們不管是建立什麼樣的模型，比如說是，引數是，然後再與實際值ý帶進損失函式求一個損失，我們去學這模型是一個什麼東西，我們最後把學到了，我們帶入一個得到一個值，這個要使它與實際的那個ý儘量的接近的，這就是我們

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

目錄 0. 前言學習完吳恩達老師機器學習課程的無監督學習，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心

sklearn庫：分類、迴歸、聚類、降維、模型優化、文字預處理實現用例（趕緊收藏）

分類演算法 # knn演算法 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() ''' __init__函式 def __init__(self, n_neighbors=5,

Fisher準則一維聚類

相關推薦