利用skift實現fasttext模型

阿新 • • 發佈：2018-12-17

skift: 用於Python fastText的scikit-learn 包裝器

什麼是 skift?

skift包括幾個scikit-learn相容包裝器,裡面封裝了fasttext模型，fasttext原理類似於word2vec，主要用於文字快速分類。其優勢在於分類速度快，使用n-gram特徵容易獲得文字句子區域性資訊、構造新詞。缺點是隨著語料的增長，記憶體需求也會增長。那麼如果解決記憶體問題呢？fasttext這種提出三種解決方法，包括

過濾掉出現次數少的詞；
使用Hash儲存
採用word粒度，而非char粒度
例如句子: 我喜歡去中國，如果採用char粒度，則使用2-gram的話，產生的特徵為
我喜喜歡歡中中國
如果採用word粒度的話，產生的特徵為
我喜歡喜歡去去中國

關於fasttext原理比較好的參考有FastText文字分類演算法學習筆記和FastText的內部機制，這裡不詳闡述。

下面使用skift實現faxtText來對細粒度情感分析模板

from tqdm import tqdm
from skift import FirstColFtClassifier
from sklearn.model_selection import KFold
import numpy as np
import os
import pickle

class BasicModel(object):
    """Docstring for BasicModel. """ 


    def __init__(self):
        """TODO: to be defined1. """
        pass

    def create_model(self, kfold_X_train, y_train, kfold_X_test, y_test, test):
        pass

    # Generate batches
    def batch_iter(self, data, batch_size, num_epochs=1, shuffle=True):
        data = np.array(data)
        data_size = 
 len(data)
        num_batches_per_epoch = int((data_size - 1) / batch_size) + 1
        for epoch in range(num_epochs):
            if shuffle:
                shuffle_indices = np.random.permutation(np.arange(data_size))
                shuffled_data = data[shuffle_indices]
            else:
                shuffled_data = data
            for batch_num in range(num_batches_per_epoch):
                start_index = batch_num * batch_size
                end_index = min((1 + batch_num) * batch_size, data_size)
                yield shuffled_data[start_index:end_index]

    def get_f1_score(self, x, y, verbose=False):
        tp = np.sum(np.logical_and(y > 0, x == y))
        fp = np.sum(np.logical_and(x > 0, y == 0)) + np.sum(np.logical_and(x * y > 0, y != x))  # 多判或者錯判
        fn = np.sum(np.logical_and(y > 0, x == 0))  # 漏判

        P = float(tp) / (float(tp + fp) + 1e-8)
        R = float(tp) / (float(tp + fn) + 1e-8)
        F = 2 * P * R / (P + R + 1e-8)

        if verbose:
            print('P->', P)
            print('R->', R)
            print('F->', F)
        return F


class BasicStaticModel(BasicModel):
    def __init__(self, config=None, n_folds=5, name='BasicStaticModel'):
        self.n_folds = n_folds
        self.name = name
        self.config = config
        self.kf = KFold(n_splits=n_folds, shuffle=True, random_state=10)

    def train_predict(self, train, train_y, test, option=None):
        name = self.name

        predict = np.zeros((test.shape[0], 10, 4))
        oof_predict = np.zeros((train.shape[0], 10, 4))
        scores_f1 = []

        for train_index, dev_index in self.kf.split(train):
            kfold_X_train, kfold_X_val = train[train_index], train[dev_index]
            y_train, y_dev = train_y[train_index], train_y[dev_index]

            model_dict = {}
            print('start train model:')
            for idx in tqdm(range(10)):
                label = y_train[:, idx]
                model = self.create_model()
                model.fit(kfold_X_train, label)
                model_dict[idx] = model
            print('complete train model')
            print('start validate model')
            f1_scores = []
            for idx in tqdm(range(10)):
                label_dev = y_dev[:, idx]
                model = model_dict[idx]
                dev_prob = model.predict_proba(kfold_X_val)
                test_prob = model.predict_proba(test)

                oof_predict[dev_index, idx] = dev_prob
                predict[:, idx] += test_prob / self.n_folds

                dev_predict = np.argmax(dev_prob, 1)
                f1_scores.append(self.get_f1_score(dev_predict, label_dev))
            f1_score = np.mean(f1_scores)
            scores_f1.append(f1_score)
            print('f1_scores-> ', f1_scores)
            print('f1_score: ', f1_score)
            if self.config.is_debug == True:
                break

        print('Total f1->', scores_f1)
        print("Total f1'mean is ", np.mean(scores_f1))

        # 儲存結果
        os.makedirs('../data/result-ml', exist_ok=True)

        with open('../data/result-ml/{}_oof_f1_{}.pkl'.format(name, str(np.mean(scores_f1))), 'wb') as f:
            pickle.dump(oof_predict, f)

        with open('../data/result-ml/{}_pre_f1_{}.pkl'.format(name, str(np.mean(scores_f1))), 'wb') as f:
            pickle.dump(predict, f)

        print('done')


class Fasttext(BasicStaticModel):
    def __init__(self, name='basicModel', n_folds=5, config=None):
        BasicStaticModel.__init__(self, name=name, n_folds=n_folds, config=config)

    def create_model(self):
        # 重寫
        sk_clf = FirstColFtClassifier(lr=1.0, epoch=10,
                                      wordNgrams=1,
                                      minCount=5, verbose=2)
        return sk_clf

利用skift實現fasttext模型

skift: 用於Python fastText的scikit-learn 包裝器什麼是 skift? skift包括幾個scikit-learn相容包裝器,裡面封裝了fasttext模型，fasttext原理類似於word2vec，主要用於文字快速分類。其優勢在於分類速度快，使用

利用Tensorflow實現神經網絡模型

flow one 什麽 hold test ase tensor dom def 首先看一下神經網絡模型，一個比較簡單的兩層神經。代碼如下： # 定義參數 n_hidden_1 = 256 #第一層神經元 n_hidden_2 = 128 #第

TensorFlow實現人臉識別(5)-------利用訓練好的模型實時進行人臉檢測

經過前面複雜的操作，訓練出來對於某一個人的識別模型。本文將利用該模型對於開啟的視訊或者攝像頭實時的識別該人。讀取視訊 ==> 識別人臉 ==> 繪製標誌程式碼如下： #-*- coding:UTF-8 -*- import tensor

Java多執行緒15：Queue、BlockingQueue以及利用BlockingQueue實現生產者/消費者模型

轉自：http://www.cnblogs.com/xrq730/p/4855857.htmlQueue是什麼佇列，是一種資料結構。除了優先順序佇列和LIFO佇列外，佇列都是以FIFO（先進先出）的方式對各個元素進行排序的。無論使用哪種排序方式，佇列的頭都是呼叫remove(

Java利用Redis實現消息隊列

.get keys rpo throws max del 鍵值先進先出 instance 應用場景為什麽要用redis?二進制存儲、java序列化傳輸、IO連接數高、連接頻繁一、序列化　　這裏編寫了一個java序列化的工具,主要是將對象轉化為byte數組,和根

利用Sentinel實現Redis主從切換

edi nbsp ilo bind redis poc 自主日誌 sent 利用Sentinel(哨兵)實現Redis集群的故障自主切換首先部署redis主從集群，這裏忽略過程，主要看配置文件: master： bind 0.0.0.0 port 6801 log

利用FT232實現USB轉串口

可能性 olt documents generated ply pl2 繪制很好 ner FT232B數據手冊：http://www.ftdichip.com/Support/Documents/DataSheets/ICs/DS_FT232BL_BQ.pdf 常用的US

[轉] 利用js實現禁用瀏覽器後退

cti scrip style 瀏覽器中文本框所有方案 att word [From] http://blog.csdn.net/zc474235918/article/details/53138553 現在很多的內部系統，一些界面，都是用戶手動點擊退出按鈕的。但

利用Selenium實現圖片文件上傳的兩種方式介紹

最簡 pfile 狀態 blog nbsp ftw fin send find 在實現UI自動化測試過程中，有一類需求是實現圖片上傳，這種需求根據開發的實現方式，UI的實現方式也會不同。一、直接利用Selenium實現這種方式是最簡單的一種實現方式，但是依賴於

LN : JSON 利用C++實現JSON

ava cxf long auto chang exp sld ngxin chan Java%E7%A8%8B%E5%BA%8F%E5%91%98%E7%9A%84%E6%97%A5%E5%B8%B8%20%E2%80%94%E2%80%94%20Java%E7%B1%B

利用GDAL實現影像的幾何校正

pad 傳感 ons 結構 turn 關聯 oat eve gre 一、概述遙感影像和地理坐標進行關聯的方式一般有好幾種，一種是直接給出了仿射變換系數，即6個參數，左上角地理坐標，縱橫方向上的分辨率，以及旋轉系數。在這樣的情況下，求出某一像素點的地理坐標非常eas

php利用gd實現圖片的邊框

col spl tmp pic ora play 圖片取圖 from 1 <?php 2 3 //實現兩張圖片合並並內圖片有一定的邊框 4 5 $file = ‘image/qr_1047.png‘; 6 $logo = ‘image/log

利用shell實現判斷局域網內在線用戶有那些

利用shell實現判斷局域網內在線用戶有那些#!/bin/bash while true; do for I in {100..120};do ping -c 2 -w 2 192.168.0.$I &>/dev/null if [ $? -eq 0 ];then

利用jsonp實現跨域請求

get p地址 doc ajax請求 -s tar 原理安全策略都是　　同源策略，它是由Netscape提出的一個著名的安全策略。現在所有支持JavaScript 的瀏覽器都會使用這個策略。所謂同源是指，域名，協議，端口相同。當一個瀏覽器的兩個tab頁中分別打開來百

利用ListView實現類似物流詳情的進度顯示

class cnblogs bsp idt ges height eight 效果圖進度顯示實現效果圖：一、UI實現布局文件：二、數據實現利用ListView實現類似物流詳情的進度顯示

Nginx+Tomcat反向代理利用certbot實現https

per share 反向 oot 一段 new gree package cti 一、利用Let‘s Encrypt 免費生成HTTPS證書 1、下載安裝certbot(Let‘s Encrypt ) 2、利用certbot生成證書 3、配置nginx的https證書安裝

利用toggle實現背包

如圖所示技術分享 ges com 界面 nor graphic 背包圖片 1.先創建入如圖所示界面 2.在圖片下面創建一個選中狀態圖片 3.在normal圖片添加toggle組件，將子物體拖動到graphic裏利用toggle實現背包

PHP利用P3P實現跨域

method php evaluate payment 接受可能 contains strong rac 有別於js跨域、IFRAME跨域等的常用處理辦法，還可以利用P3P來實現跨域。 P3P是什麽 P3P（Platform for Privacy Preferenc

手機影音第十五天，利用service實現後臺播放音樂，在通知欄顯示當前音樂信息等

手機影音第十五天利用service實現後臺播放音樂在通知欄顯示當前音樂信息。代碼已經托管到碼雲上，有興趣的小夥伴可以下載看看 https://git.oschina.net/joy_yuan/MobilePlayer 先來一張目前的音樂播放器的效果圖，當播

Python 利用socket 實現 ssh 跳轉

socket python squid 1.場景描述：主機A主機B主機C10.13.170.76172.28.117.156（squid）10.95.113.131 主機A---->主機B(80)--->主機C(22), A通過B的80訪問主機C131 2.Python代碼；im

利用skift實現fasttext模型

相關推薦