KIM2014_Convolutional Neural Networks for Sentence Classification

阿新 • • 發佈：2018-12-26

Convolutional Neural Networks for Sentence Classification

1. Abstract
2. Introduction
3. Model
4. Datasets and Experimental Set up

4.1 Hyperparameters and Training

5. Results and Discussion
總結

1. Abstract

證實了：
- 一個簡單的CNN結構 + 微調少許超參 + 靜態向量
  
  = 效能超好
- 在fine-tuning階段學習task-specific向量能進一步提升效能
為了能同時使用靜態向量和task-specific向量，對結構進行小調整，提出了Text CNN
在情感分析、問題分類等4個領域達到了十分好的效果

所謂靜態向量就是指預訓練好的詞向量；task-specific向量是指詞向量也可以在下游任務中，隨著模型一同微調。

2. Introduction

Kim之前利用預訓練好的詞向量（全程保持不變，也就是靜態向量）載入到具體任務中，並只對模型的少許引數做微調，發現模擬結果也很好，證實了詞向量可以作為一個通用的特徵提取部件

，並可被廣泛用於各類分類任務中。當然從今天的角度來看，這已經是共識了。
不過Kim認為工作不止於此，如何在fine-tuning中學習task-specific向量更加重要。

3. Model

$k$	$x_i∈R^k$	$n$	$⊕$	輸入文字
詞向量維度	輸入文字第 $i$ 個詞的詞向量	輸入文字長度（不足補全，超過截斷）	聯接符	$x_{1:n}=x_1⊕x_2⊕...⊕x_n$

一次卷積操作：
- 給定一個 $filter$ ： $w∈R^{hk}$ ，代表對一個 $window=h$ 的視窗內詞語的卷積，並生成一個新的feature
- $c_i=f(w·x_{i:i+h-1}+b)$ ， $b$ 為偏置，可加可不加， $f$ 為非線性函式
- 將這個 $w$ 應用於一個輸入文字，即視窗 $\{x_{1:h},x_{2:h},...,x_{n-h+1:n}\}$ ，可以得到一個feature map： $c=[c_1,c_2,...,c_{n-h+1}]$
- 進行一次最大池化，得到 $\hat{c}=max\{c\}$ ，用以捕捉最重要的feature map
上述過程中，每個feature對應於一個 $filter$ ，而模型會使用不同的 $filters$ （帶有不同的window sizes）以得到不同的特徵
對雙通道（每個通道輸入不同的詞向量）CNN進行了模擬實驗，一個通道為靜止向量，另一個通道會在bp過程中不斷微調，且每個 $filter$ 會被用於每個通道，結果在計算 $c_i$ 時進行累加，具體結構如下圖所示

4. Datasets and Experimental Set up

4.1 Hyperparameters and Training

$filter$ $windows$	$feature$ $maps$	$droupout$ $rate$	$l_2$ constraint	mini-batch size
$[3,4,5]$	100 maps for each filter	$0.5$	$3$	$50$

5. Results and Discussion

在這裡插入圖片描述

所有詞的詞向量均隨機初始化，在訓練過程中不斷調整的baseline模型CNN-rand，果不其然效果比較差
在baseline基礎上加了個靜態向量的CNN-static，果然提升很大
原以為使用多通道的CNN-multichannel能夠防止過擬合，（尤其在小資料集的情況下）比單通道的效能更好，結果發現並不盡然
CNN-non-static相比CNN-static，在一些情況下還是很有用的

總結

儘管沒怎麼對超參做調整，一個簡單的單卷積層CNN已經很牛逼了
如何用Pytorch實現一個Text CNN

KIM2014_Convolutional Neural Networks for Sentence Classification

Convolutional Neural Networks for Sentence Classification 1. Abstract 2. Introduction 3. Model 4. Datasets and Experimental Se

A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification

引言 Ye Zhang在2016年掛在arXiv上的論文，從名字大概可以看出來，這是一篇CNN調參指南。概述模型方面用的是單層CNN，主要是CNN用做文字分類方面的研究，模型結構如下所示：上述模型來自Convolutional Neural Networks for

《Convolutional Neural Networks for Sentence Classification》論文結構解讀

1.資料以某一雙鞋子為例，評論結果作為標籤（2分類：好評，差評）【穿了一段時間，不錯，喜歡的下單吧；好評】【鞋子收到了，不是很滿意。沒有吊牌，一直都是還是隻有我這一雙是；差評】資料處理步驟：把所有評論資料集分詞，去除停用詞，然後構建word2index，然後表示“句子”，以

Deep Neural Network for Image Classification: Application

cal pack 分享圖片 his exp params next min super When you finish this, you will have finished the last programming assignment of Week 4, and a

Understanding Convolutional Neural Networks for NLP

n) rnn eas published previous depend tput parameter www. When we hear about Convolutional Neural Network (CNNs), we typically think of Co

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

YouTube推薦系統（下）：Deep Neural Networks for YouTube Recommendations

咳，還是要說說這篇文章，雖然講它的人已經很多了。畢竟作為深度學習模型大規模應用於工業界推薦系統的標誌，這篇文章是繞不過去的。原文來自Deep Neural Networks for YouTube Recommendations，是YouTube2016年發表於Recosys的文章。這篇文章的結構依然很經

【論文閱讀】Siamese Neural Networks for One-shot Image Recognition

關鍵詞： one-short learning : 待解決的問題只有少量的標註資料，先驗知識很匱乏，遷移學習就屬於one-short learning的一種 zero-short learning: 這個種情況下完全沒有

Deep Neural Networks for Object Detection

zhuanzii 採用的是AlexNet,不過稍作修改。原AlexNet網路：具體改進： 1. 把最後一個層softmax改成a regession layer. predict a mask of a fixed size. 1代表this pixel l

《Character-level convolutional networks for text classification》論文網路結構解讀

1.資料比如有一條資料【x=“Simultaneous Tropical Storms are Very Rare”】.則把該句子的大寫字母全部表示成小寫，構建char字符集的詞彙表如下（這裡詞彙表長度為70（69+1，即其他的不在詞彙表的表示為0））：資料可以表示為x=70X

01神經網路和深度學習-Deep Neural Network for Image Classification: Application-第四周程式設計作業2

一、兩層神經網路模型：LINEAR->RELU->LINEAR->SIGMOID #coding=utf-8 import time import numpy as np import h5py import matplotlib.pyplot as

Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

本部落格參考了微信公眾號“AI晶片演算法”中的原創文章《Google CVPR2018 8bit 量化論文》一文。 1、本文的貢獻本文主要側重將推斷中的浮點數運算量化為整數運算（Integer-Arithmetic-Only），最終將權重和啟用函式量化為8-bit，

Recurrent Neural Network for Text Classification with Multi-Task Learning

引言 Pengfei Liu等人在2016年的IJCAI上發表的論文，論文提到已存在的網路都是針對單一任務進行訓練，但是這種模型都存在問題，即缺少標註資料，當然這是任何機器學習任務都面臨的問題。為了應對資料量少，常用的方法是使用一個無監督的預訓練模型，比如詞向量，實驗中也取得了不錯

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

論文閱讀（【CVPR2018】Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision）本文針對低層視覺問題，提出了一般性的用於解決低層視覺問題的對偶卷積神經網路。作者認為，低層視覺問題，如常見的有

Building Fast and Compact Convolutional Neural Networks for Offline HCCR

--pattern recognition 2017 摘要：像其他的計算機視覺技術一樣，離線的手寫文字識別使用CNN方法取得了很好的效果。但是需要非常複雜的網路才可以取得較好的效果。這樣的網路直觀地看起來計算成本過高，並且需要儲存大量引數，這使得它們在行動式裝置中部署

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension

基於遞階遞迴神經網路的語音訊帶擴充套件的波形建模與生成作者：凌震華老師；成員：Yang Ai , 顧宇, and Li-Rong Dai 摘要　　本文提出了一種基於遞階遞迴神經網路(HRNN)的語音頻寬擴充套件(BWE)的波形建模與生成方法。與傳統的預測寬頻語音波形譜引數的盲式頻帶擴充套件(BWE)

Hierarchical Attention Networks for Document Classification 實現篇

Hierarchical Attention Networks for Document Classification 實現篇本文借鑑了大神的部落格和程式碼，連結：https://blog.csdn.net/liuchonge/article/details/74092014?loca

Hierarchical Attention Networks for Document Classification 模型理解篇

Hierarchical Attention Networks for Document Classification 模型理解篇本文借鑑了大神的部落格，連結：https://blog.csdn.net/liuchonge/article/details/73610734 最近看了

Stanford University CS231n: Convolutional Neural Networks for Visual Recognition

Computer Vision has become ubiquitous in our society, with applications in search, image understanding, apps, mapping, medicine, drones, and self-driving c

Free Online Course: Neural Networks for Machine Learning from Coursera Class Central

I honestly can't understand the multiple 5 star reviews presented on this site about the course. I'm giving it a 1 star which is a bit harsh I know but I'm

KIM2014_Convolutional Neural Networks for Sentence Classification

Convolutional Neural Networks for Sentence Classification

1. Abstract

2. Introduction

3. Model

4. Datasets and Experimental Set up

4.1 Hyperparameters and Training

5. Results and Discussion

總結

相關推薦