Python word2vector（含安裝環境）

阿新 • • 發佈：2019-02-04

一、安裝Anaconda
Anaconda下載
因為映象在國外，最好不要晚上下，一大早下比較好，如果是迅雷會員就無所謂了。
我下的是Anaconda3-5.0.1-Windows-x86_64.exe，給一個百度網盤的連結
百度網盤連結
密碼:6jm4
安裝在D:\PythonSoftware\Anaconda3下面，自己建立資料夾，路徑不能有空格，不能有中文。
安裝時一定要勾選 “新增環境變數”這個項，會自動將Anaconda3所有的環境變數都加入
安裝好後，在命令列輸入 python
這裡寫圖片描述

這樣，python基本環境就安裝好了，裡面自帶了很多包，可以直接使用，如果沒有需要的包，可以在命令列中輸入pip list
這裡寫圖片描述

可以看到pip可以安裝哪些包，用pip install 包名，就可以線上安裝了。
Anaconda3包含的包的列表

這裡寫圖片描述

最後一步，把Run pycharm 勾起來，直接啟動
下面的這個圖會自動彈出，把快捷鍵修改為eclipse，其他OK
這裡寫圖片描述
根據下面的部落格修改提示的快捷鍵的操作：
提示快捷鍵修改

這裡寫圖片描述

三、安裝碼雲外掛
碼雲教程
將剛才建立的專案託管到碼雲中
這樣以後就可以直接push了
新增ignore檔案：
.gitignore
加入語句：
/data/*

cmd：

pip install pyltp

結果報錯。

pyltp原始碼下載
 LTP原始碼工程下載

將解壓後的ltp資料夾命名為ltp，整體複製到pyltp中。
也就是將ltp所有內容作為一個資料夾放到pyltp中。解壓pyltp後所得到的資料夾中已經有一個名為ltp的空資料夾，把它替換或覆蓋即可。
進入pyltp資料夾，cmd：

python setup.py install

還是報錯。

這裡寫圖片描述

C++編譯工具下載
選擇自定義安裝，把√都去了。LTP這東西得編譯，不然用不起來。

然後

pip install --upgrade setuptools
pip install --upgrade pip
pip install pyltp

這裡寫圖片描述
簡直想說我 *********** 啊，還是報錯！

安裝cmake:
cmake下載
安裝時勾選自動新增環境變數

下載basetsd.h，百度搜一下就有，百度文庫裡面
然後放到D:\PythonSoftware\Anaconda3\include下面，因為上面報錯是沒有這個檔案

還是報錯！放棄了！

五、安裝gensim
下載地址
下載 gensim-3.1.0-cp36-cp36m-win_amd64.whl

pip install gensim-3.1.0-cp36-cp36m-win_amd64.whl

也可以線上安裝：
直接在user目錄中建立一個pip目錄，如：C:\Users\xx\pip，新建檔案pip.ini，內容如下

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

以上是修改映象為清華大學，然後線上安裝會發現下載速度賊快

pip install gensim

清除pip快取路徑：

%LocalAppData%\pip\Cache

六、安裝結巴分詞

pip install jieba

import jieba
import jieba.posseg as pseg

s = "我愛中國"
l = jieba._lcut(s)  # 分詞，結果是list
print(l)

words = pseg.cut(s)  # 進行分詞
result = []  # 記錄最終結果的變數
for w in words:
    result.append(str(w.word) + "/" + str(w.flag))  # 加詞性標註
print(result)

七、word2vector
人民日報98年1月語料庫
詞向量訓練是已經分好詞的句子，去除標點符號，由於語料庫已經分詞且詞性標註了，所以不需要分詞了，不然就用結巴分詞一下。
語料庫是GB2312編碼的，先用emeditor轉成utf8的。

import gensim


def getSentences(path):
    '''
    獲得用於詞向量訓練的句子
    :param path: 檔案儲存的路徑
    :return: list[[單詞],[單詞].....]
    '''
    sents = []
    f = open(path, "r", encoding="utf8")
    for line in f:
        line = line.strip()
        if line != "":
            line_shuzu = line.split("  ")  # 按照2個空格拆分
            sen = []
            for i in range(len(line_shuzu)):
                # 第一個不存
                if i != 0:
                    word = line_shuzu[i].split("/")[0]  # 單詞
                    pos = line_shuzu[i].split("/")[1]  # 詞性
                    # 去除標點符號
                    if pos != 'w':
                        sen.append(word)
            sents.append(sen)
    return sents


path = "./data/199801.txt"
sentences = getSentences(path)
"""
min_count:個數小於這個的單詞會被丟棄
size：神經網路隱藏層單元數，幾十到幾百，也就是最後詞向量的維度
workers：併發數,worker引數只有在安裝了Cython後才有效. 沒有Cython的話, 只能使用單核
window：滑動視窗大小，即每個單詞前後文關聯的單詞個數，一般3-5
iter：迭代輪數
"""
model = gensim.models.Word2Vec(sentences, min_count=5, size=100, workers=2, window=5, iter=10)
model.save("./model/w2v_model")  # 儲存模型
print(model["中國"])  # 列印中國的詞向量

new_model = gensim.models.Word2Vec.load("./model/w2v_model")  # 載入模型
more_sentences = [['我', '愛', '你'], ['我', '愛', '祖國']]
# 增量訓練,total_examples是句子的數量,epochs是迭代輪數
new_model.train(more_sentences, total_examples=len(more_sentences), epochs=model.iter)

# 比較兩個詞語的相似度,越高越好，相似度就是2個向量夾角的餘弦值
print('"唐山" 和 "中國" 的相似度:' + str(new_model.similarity('唐山', '中國')))
print('"中國" 和 "祖國" 的相似度:' + str(new_model.similarity('祖國', '中國')))
print('"中國" 和 "中國" 的相似度:' + str(new_model.similarity('中國', '中國')))
# 使用一些詞語來限定,分為正向和負向的
result = new_model.most_similar(positive=['中國', '城市'], negative=['學生'])
print('同"中國"與"城市"二詞接近,但是與"學生"不接近的詞有:')
for item in result:
    print('   "' + item[0] + '"  相似度:' + str(item[1]))

Python word2vector（含安裝環境）

一、安裝Anaconda Anaconda下載因為映象在國外，最好不要晚上下，一大早下比較好，如果是迅雷會員就無所謂了。我下的是Anaconda3-5.0.1-Windows-x86_64.exe，給一個百度網盤的連結百度網盤連結密碼:6jm4

atuodesk下載教程（含安裝步驟）

1.本站壓縮包，獲得安裝包和補丁，雙擊MFAA_2019_FCS_Multilingual_Win_64bit_dlm.sfx.exe，，點確定開始解壓安裝包，可以選擇修改解壓目錄2.開始壓縮3.點安裝4.接受協議，點下一步5.輸入序列號666-69696969產品密匙：Autodesk Moldflow

linux(x64)下安裝Matlab 2015b破解版（含安裝包）

裝需要12G左右的空間，可以在安裝之後把檔案移至/home資料夾。環境：linux-x86 安裝包http：//pan.baidu.com/s/1o7BCgsi 安裝步驟：將網盤中的R2015b_glnxa64.iso; matlab 205bLinux Crack.rar下載解壓後放

在無介面的centos 7.4 下安裝Matlab 2015b破解版（含安裝包）

1.安裝包連結：https://pan.baidu.com/s/1rSEyQM1CCubWj4jySdlPLQ 提取碼：5rtb R2015b_glnxa64.iso (安裝檔案需要掛載) ShortCut_Linux.zip () Matl

虛擬機器VMware Workstation 12 官方專業版的安裝（含安裝包）

如果連結等有誤或者有什麼問題歡迎大家評論共同探討，剛剛上路的程式猿，共勉。安裝步驟這個安裝步驟很簡單，一步步根據指示做就好了，基本保持預設，存放位置的話自己更改就好了，需要輸入祕鑰的時候

windows下cmd使用wget命令（含安裝包）

我們都知道wget這個工具是Linux、Unix下才能使用的。那麼windows平臺下到底可否使用？答案是確定的可以的！！！請從下面連結下載wget(1.11.4) for win: 。下載完成後，解壓出wget.exe檔案，把它放到c:\windows

ubuntu16.04(x64)下安裝Matlab 2015b破解版（含安裝包）

從師兄那裡拷來的matlab軟體包2015b 一個安裝檔案足夠，更新的似乎需要兩個。下載安裝包 Matlab R2015b_glnxa64.iso and Crack files 百度網盤, password: 4gj3 我不知道ubuntu下怎麼直

vs2017打包流程（含安裝外掛）

1、開啟VS2017：工具 –> 擴充套件和更新 –> 聯機，搜尋Microsoft Visual Studio 2017 Installer Projects，如下圖： 2、按提示安裝好以後，重啟vs2017 3、用VS開啟編寫的軟體，右擊專案 –> 新增

Ubuntu16.04安裝OpenCV-3.4.3的C++和python版本（含anaconda建立的python環境）詳細步驟與總結（乾貨）

一、原始碼編譯安裝（C++版） 1.安裝一系列依賴項： sudo apt-get install build-essential sudo apt-get install cmake git libgtk2.0-dev pkg-config libavcodec-dev

Unity3D 釋出APK安卓環境配置步驟、安裝、教程（含Java/Android）(超全流程)

Unity3D安卓環境配置執行本文提供全流程，中文翻譯。Chinar堅持將簡單的生活方式，帶給世人！（擁有更好的閱讀體驗 —— 高解析度使用者請根據需求調整網頁縮放比例） C

在Mac 上搭建Pygame環境（含安裝錯誤的解決辦法）

在Mac 上搭建pygame（含安裝錯誤的解決辦法）前言：說一下寫本文的原因吧，最近在學習Python，學習到用pygame開發遊戲的時候，在Mac電腦上裝pygame卻始終無法安裝成功。折騰了好久才安裝成功，因此準備記錄一下安裝方法，可以讓想學習py

如何用 pipenv 克隆 Python 教程程式碼執行環境？（含視訊講解）

咱們的 Python 教程程式碼已經可以免安裝線上運行了。但如果你希望在本地克隆執行環境，請參考

轉：【Java並發編程】之八：多線程環境中安全使用集合API（含代碼）

控制 and clas ron com lan 創建 pri 基本上轉載請註明出處：http://blog.csdn.net/ns_code/article/details/17200509 在集合API中，最初設計的Vector和Hashtable是多線程安

註冊中心 Eureka 源碼解析 —— 調試環境搭建（含源碼）

Java 架構依賴工具GradleJDKIntelliJ IDEA 源碼拉取https://github.com/Netflix/eureka.git使用 IntelliJ IDEA 從 Fork 出來的倉庫拉取代碼。拉取完成後，Gradle 會下載依賴包，可能會花費一些時間，耐心等待下。本文基

python文件和目錄操作方法大全（含實例）

file python tree odin inux 長度需要 tell mtr 一、python中對文件、文件夾操作時經常用到的os模塊和shutil模塊常用方法。 1 得到當前工作目錄，即當前Python腳本工作的目錄路徑: os.getcwd() 2 返回指定

Selenium3+python自動化（3.7版本）-chrome67環境搭建

ffffff 十月 imp win7 64 api 新的 one 工具調用前言目前selenium版本已經升級到3.0了，網上的大部分教程是基於2.0寫的，所以在學習前先要弄清楚版本號，這點非常重要。本系列依然以selenium3為基礎。一、selenium簡介 S

pycharm5漢化破解啟用教程（含安裝包/漢化包下載）

本安裝教程無圖，建議下載安裝檔案後按照提示一步一步來，確認無誤後往下進行下一步防止安裝失敗！【pycharm下載】 1、右擊軟體壓縮包選擇解壓。下載地址連結：https://pan.baidu.com/s/1LsnovUDrs9qbjXpOvC82Mg 提取碼：7lth

Java並發編程（8）：多線程環境中安全使用集合API（含代碼）

本質 extend xxxx args 控制一段連續並發 xtend Java並發編程（8）：多線程環境中安全使用集合API（含代碼）JAVA大數據中高級架構 2018-11-09 14:44:47在集合API中，最初設計的Vector和Hashtable是多線程安全

安卓學習筆記 -- （安裝環境） Android Studio安裝配置、環境搭建詳細步驟及基本使用 Android Studio和SDK官方開發工具下載 Android Studio教程從入門到精通 Android開發-之第一個程式：HelloWorld！

1、下載Android Studio安裝配置、環境搭建詳細步驟及基本使用 https://www.cnblogs.com/yanglh6-jyx/p/Android_AS_Configuration.html https://blog.csdn.net/k491022087/ar

IDEA安裝python外掛（一圖流）

安裝完python後 ctrl + alt + s 開啟settings，點選plugins然後搜尋python，然後點開browse respositories搜尋python，安裝完了重新開啟即可。安裝好後，建立python工程： &

Python word2vector（含安裝環境）

相關推薦