詞向量原始碼解析：（6.7）fasttext原始碼解析之詞向量1

阿新 • • 發佈：2019-02-11

下面我們看一下怎麼用fasttext生成詞向量。我們執行word-vector-example.sh檔案可以得到考慮了subword的詞向量。首先看一下這個指令碼。首先是下載語料和測試集，下載語料的以後解壓並且用wikifil.pl對語料進行預處理，得到純文字

if [ ! -f "${DATADIR}/fil9" ]
then
wget -c http://mattmahoney.net/dc/enwik9.zip -P "${DATADIR}"
unzip "${DATADIR}/enwik9.zip" -d "${DATADIR}"
perl wikifil.pl "${DATADIR}/enwik9" > "${DATADIR}"/fil9
fi

if [ ! -f "${DATADIR}/rw/rw.txt" ]
then
wget -c https://nlp.stanford.edu/~lmthang/morphoNLM/rw.zip -P "${DATADIR}"
unzip "${DATADIR}/rw.zip" -d "${DATADIR}"
fi

編譯原始碼，用skipgram模式進行訓練

make

./fasttext skipgram -input "${DATADIR}"/fil9 -output "${RESULTDIR}"/fil9 -lr 0.025 -dim 100 \
-ws 5 -epoch 1 -minCount 5 -neg 5 -loss ns -bucket 2000000 \
-minn 3 -maxn 6 -thread 4 -t 1e-4 -lrUpdateRate 100

cut -f 1,2 "${DATADIR}"/rw/rw.txt | awk '{print tolower($0)}' | tr '\t' '\n' > "${DATADIR}"/queries.txt

cat "${DATADIR}"/queries.txt | ./fasttext print-word-vectors "${RESULTDIR}"/fil9.bin > "${RESULTDIR}"/vectors.txt

python eval.py -m "${RESULTDIR}"/vectors.txt -d "${DATADIR}"/rw/rw.txt

我們看一下C++原始碼中如何一步步得到詞向量。和文字分類的supervised模式一樣，呼叫train函式

int main(int argc, char** argv) {
if (argc < 2) {
printUsage();
exit(EXIT_FAILURE);
}
std::string command(argv[1]);
if (command == "skipgram" || command == "cbow" || command == "supervised") {
train(argc, argv);
} else if (command == "test") {
test(argc, argv);
} else if (command == "quantize") {
quantize(argc, argv);
} else if (command == "print-word-vectors") {
printWordVectors(argc, argv);
} else if (command == "print-sentence-vectors") {
printSentenceVectors(argc, argv);
} else if (command == "print-ngrams") {
printNgrams(argc, argv);
} else if (command == "nn") {
nn(argc, argv);
} else if (command == "analogies") {
analogies(argc, argv);
} else if (command == "predict" || command == "predict-prob" ) {
predict(argc, argv);
} else {
printUsage();
exit(EXIT_FAILURE);
}
return 0;
}

void train(int argc, char** argv) {
std::shared_ptr<Args> a = std::make_shared<Args>();
a->parseArgs(argc, argv);
FastText fasttext;
fasttext.train(a);
}

我們繼續看fasttext.train。之前已經介紹過這個函式，首先建立詞典，然後初始化所有引數，然後多執行緒訓練然後儲存引數。目前大多都和文字分類一樣。一點關鍵的區別是output向量的維度不一樣了。在文字分類中維度是標籤個數乘以詞向量維度，這裡是上下文單詞個數乘以詞向量維度。因為文字分類是預測標籤，而詞向量是預測單詞。

void FastText::train(std::shared_ptr<Args> args) {
args_ = args;
dict_ = std::make_shared<Dictionary>(args_);
if (args_->input == "-") {
// manage expectations
std::cerr << "Cannot use stdin for training!" << std::endl;
exit(EXIT_FAILURE);
}
std::ifstream ifs(args_->input);
if (!ifs.is_open()) {
std::cerr << "Input file cannot be opened!" << std::endl;
exit(EXIT_FAILURE);
}
dict_->readFromFile(ifs);
ifs.close();

if (args_->pretrainedVectors.size() != 0) {
loadVectors(args_->pretrainedVectors);
} else {
input_ = std::make_shared<Matrix>(dict_->nwords()+args_->bucket, args_->dim);
input_->uniform(1.0 / args_->dim);
}

if (args_->model == model_name::sup) {
output_ = std::make_shared<Matrix>(dict_->nlabels(), args_->dim);
} else {
output_ = std::make_shared<Matrix>(dict_->nwords(), args_->dim);
}
output_->zero();

start = clock();
tokenCount = 0;
if (args_->thread > 1) {
std::vector<std::thread> threads;
for (int32_t i = 0; i < args_->thread; i++) {
threads.push_back(std::thread([=]() { trainThread(i); }));
}
for (auto it = threads.begin(); it != threads.end(); ++it) {
it->join();
}
} else {
trainThread(0);
}
model_ = std::make_shared<Model>(input_, output_, args_, 0);

saveModel();
if (args_->model != model_name::sup) {
saveVectors();
if (args_->saveOutput > 0) {
saveOutput();
}
}
}

區別就是呼叫了skipgram函式。其他流程一樣：首先根據引數初始化模型，然後迴圈，讀入一行，訓練，隔一段時間更新一次learning rate。

void FastText::trainThread(int32_t threadId) {
std::ifstream ifs(args_->input);
utils::seek(ifs, threadId * utils::size(ifs) / args_->thread);

Model model(input_, output_, args_, threadId);
if (args_->model == model_name::sup) {
model.setTargetCounts(dict_->getCounts(entry_type::label));
} else {
model.setTargetCounts(dict_->getCounts(entry_type::word));
}

const int64_t ntokens = dict_->ntokens();
int64_t localTokenCount = 0;
std::vector<int32_t> line, labels;
while (tokenCount < args_->epoch * ntokens) {
real progress = real(tokenCount) / (args_->epoch * ntokens);
real lr = args_->lr * (1.0 - progress);
localTokenCount += dict_->getLine(ifs, line, labels, model.rng);
if (args_->model == model_name::sup) {
supervised(model, lr, line, labels);
} else if (args_->model == model_name::cbow) {
cbow(model, lr, line);
} else if (args_->model == model_name::sg) {
skipgram(model, lr, line);
}
if (localTokenCount > args_->lrUpdateRate) {
tokenCount += localTokenCount;
localTokenCount = 0;
if (threadId == 0 && args_->verbose > 1) {
printInfo(progress, model.getLoss());
}
}
}
if (threadId == 0 && args_->verbose > 0) {
printInfo(1.0, model.getLoss());
std::cerr << std::endl;
}
ifs.close();
}

這裡是和文字分類的關鍵區別，迴圈。第一層是對一行的每個單詞，第二層迴圈是對每個單詞找到其周圍的上下文，一個單詞用vector去存是因為一個單詞由多個subword組成

void FastText::skipgram(Model& model, real lr,
const std::vector<int32_t>& line) {
std::uniform_int_distribution<> uniform(1, args_->ws);
for (int32_t w = 0; w < line.size(); w++) {
int32_t boundary = uniform(model.rng);
const std::vector<int32_t>& ngrams = dict_->getSubwords(line[w]);
for (int32_t c = -boundary; c <= boundary; c++) {
if (c != 0 && w + c >= 0 && w + c < line.size()) {
model.update(ngrams, line[w + c], lr);
}
}
}
}

詞向量原始碼解析：（6.7）fasttext原始碼解析之詞向量1

詞向量原始碼解析：（6.7）fasttext原始碼解析之詞向量1

詞向量原始碼解析：（6.1）fasttext原始碼解析

【機器人學】機器人開源專案KDL原始碼學習：（6）笛卡爾空間軌跡規劃、圓弧過渡、姿態插值、梯形速度、pathlength

【mxGraph】原始碼學習：（6）mxGraphModel

Beta 沖刺（6/7）

JVM理論：（三/7）關於類變量、成員變量、局部變量的案例總結

第一行程式碼----Material Design（6-7）

Beta 衝刺（6/7）

軟工實踐-Beta 衝刺（6/7）

Beta 衝刺（6/7）

beta衝刺（6/7）

# beta衝刺（6/7）

beat衝刺（6/7）

軟工1816 · Beta衝刺（6/7）

詞向量原始碼解析：（1）詞向量（詞表示）簡單介紹

VMware：vSphere 6.7（ESXI 6.7）安裝步驟

【機器人學】機器人開源專案KDL原始碼學習：（7）examples中的CMakeList.txt檔案解讀

【mxGraph】原始碼學習：（7）mxCell

某課網慕課 Vue.js 原始碼全方位深入解析實戰課程 (6-7章原始碼在此章節)

Spring原始碼深度解析總結（6）—— 配置檔案的讀取和Bean的載入（四）

詞向量原始碼解析：（6.7）fasttext原始碼解析之詞向量1

相關推薦