1. 程式人生 > >語料庫,資料集

語料庫,資料集

搜狗實驗室(Sogou Labs) : http://www.sogou.com/labs/resources.html?v=1
您所需要的資料量較大(壓縮後的網路語料庫都在100G以上,而壓縮後的圖片資料庫近 2T),網路下載已經無法滿足需求,請您按照以下的方式獲取資料
[1] 發郵件給[email protected],說明需要產品的名稱,研究人員的姓名,所在單位,聯絡方式等(最好是手機或者方便找到的座機)
[2] 搜狗實驗室相關人員會即時和您聯絡,告知具體快遞地址和人員(如果您選擇快遞方式);或者與您商議合適的資料拷貝時間。
[3] 當拿到您用於拷貝資料的硬碟後,我們會在至多3個工作日內完成資料拷貝,並及時用快遞方式把硬碟寄還給您或聯絡您直接取走硬碟。

搜狗實驗室資料下載 - 網際網路詞庫 : http://www.sogou.com/labs/dl/w.html
資料格式為
詞A 詞頻 詞性1 詞性2 … 詞性N
詞B 詞頻 詞性1 詞性2 … 詞性N
詞C 詞頻 詞性1 詞性2 … 詞性N

相關推薦

語料資料

搜狗實驗室(Sogou Labs) : http://www.sogou.com/labs/resources.html?v=1 您所需要的資料量較大(壓縮後的網路語料庫都在100G以上,而壓縮後的圖片資料庫近 2T),網路下載已經無法滿足需求,請您按照以下的

LOCUST - 用於說話人驗證的縱向語料和工具

LOCUST - Longitudinal Corpus and Toolset for Speaker Verification 摘要 在本文中,我們提出了一個新的縱向語料庫和工具集,以努力解決語音老化對說話人驗證的影響。 我們已經檢查過以前對年齡相關語音變化的縱向研究以及它對現實世界

機器學習 深度學習資料彙總(含文件資料程式碼等) 三

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

python使用自帶SVM資料iris

轉至:https://www.cnblogs.com/luyaoblog/p/6775342.html 和Python3不是很相容,改了一部分 import numpy as np from sklearn import svm import matplotlib as mpl impo

word2vec實戰:獲取和預處理中文維基百科(Wikipedia)語料並訓練成word2vec模型

前言 傳統的方法是將詞彙作為離散的單一符號,這些符號編碼毫無規則,無法提供詞彙之間可能存在的關聯關係,而詞彙的向量表示將克服上述難題。 向量空間模型(VSM)將詞彙表示在一個連續的向量空間中,語義近似的詞被對映為相鄰的資料點。VSM依賴於分散式假設思想,

DataSnap資料庫連線池資料物件池的應用

    傳統的應用伺服器的開發往往是在ServerMethods單元中拖放一堆TDataSet, TDaTaSetProvider控制元件,這是一個最簡單粗暴的開發方向,往往會造成服務端程式檔案的臃腫、服務執行期間記憶體資源消耗過大的問題。因此這種往應用伺服器中拖放一堆TD

VS2010 RDLC報表製作詳解 分組空白頁合計資料引數頁數

1.新增資料集 2.在資料集中新增資料表和對應的欄位 3.新增RDLC報表 3.製作報表 A)右件新增頁首,頁首和頁尾,(頁首和頁尾會在每一頁顯示); B)新增報表引數(快捷鍵 ctrl+Alt+D 或者檢視-》報表資料) C)對錶裡的組進行強制分頁, 1. 工具

android利用ksoap2返回複雜資料資料(dataset)

在讀這篇文章之前建議你先讀一下上一篇文章android如何使用ksoap2對sql server的操作實現登陸,原理是一樣的只是返回的資料不同而已。 web端程式碼: //database.cs檔案利用ADO.NET技術 public DataSet G

SAS學習︱邏輯資料建立與檢視、資料庫連結(SAS與R的code對照)

每每以為攀得眾山小,可、每每又切實來到起點,大牛們,緩緩腳步來俺筆記葩分享一下吧,please~———————————————————————————入門學習一週,開始寫學習筆記。用習慣R之後,發現SA

1998年人民日報語料詞的最長最短匹配 提取問題

由於語料中包括 [中央/n 人民/n 廣播/vn 電臺/n]nt 此類詞問題,可以選擇最長詞提取,也可以選擇最短詞提取 # -*- coding: utf-8 -*- import codecs wordfile=codecs.open("199801.txt

【NLP】大資料之行始於足下:談談語料知多少

作者:白寧超 2016年7月20日13:47:51 摘要:大資料發展的基石就是資料量的指數增加,無論是資料探勘、文字處理、自然語言處理還是機器模型的構建,大多都是基於一定量的資料,資料規模達到一定程度,採用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那麼,是不是資料足

PHP不使用Excel第三方類如何簡易匯出資料

使用場景 不使用Excel第三方類庫, 需要匯出資料庫中某幾個列的資料,只需將查出每條資料的每列使用英文逗號隔開即可 前言 此方式主要是利用.csv字尾的檔案簡易匯出資料方法 csv介紹 CSV(Comma Separated Valu

解決---MISCONF Redis被配置為儲存RDB快照但目前無法在磁碟上存留。可能修改資料的命令被禁用。請檢查Redis日誌瞭解有關錯誤的詳細資訊。

出現bug: 在學習celery,將資料儲存到redis時出現下面的bug。 consumer: Cannot connect to redis://192.168.12.188:6379/3: MISCONF Redis is configured to save RDB sn

資料結構:求兩個有序列表的交集

1.求兩個有序列表的交集 LNode* Intersection(LNode* La,LNode* Lb) { if (La==NULL||Lb==NULL) { return NULL; } LNode *pCHead = NULL; //A與B交集頭 LNode *pCE

SSD Tensorflow訓練自己的資料遇到報錯absl.flags._exceptions.IllegalFlagValueError: flag --num_classes==: 求助

按照此部落格訓練到“五.訓練”這一步報錯。 連結:https://blog.csdn.net/Echo_Harrington/article/details/81131441   下面是bash 的   train.sh  檔案博主給的內容 D

CelebA資料簡單介紹及做人臉識別時資料的處理

CeleA是香港中文大學的開放資料,包含10177個名人身份的202599張圖片,並且都做好了特徵標記,這對人臉相關的訓練是非常好用的資料集。網盤連結 資料包含了三個資料夾,一個描述文件如下: img資料夾下有兩個壓縮包 img_align_celeba.zip & img_al

redis主宕機後重啟和從資料丟失

redis主庫宕機後重啟,主庫和從庫的資料丟失   解決方法: 假如主庫127.0.0.1 6379,從庫127.0.0.1 6380 1.在從資料庫中執行SLAVEOF NO ONE命令,斷開主從關係並且提升為主庫繼續服務; 2

最強資料50個最佳機器學習公共資料可以幫你驗證idea!

1.  尋找資料集の奧義 根據CMU的說法,尋找一個好用的資料集需要注意一下幾點: 資料集不混亂,否則要花費大量時間來清理資料。 資料集不應包含太多行或列,否則會難以使用。 資料越乾淨越好,清理大型資料集可能非常耗時。 應該預設一個有趣的問題,而這個問題又可以用資料來

製作PASCAL VOC格式的檢測資料生成trainval.txt, train.txt, val.txt, test.txt檔案

import os import random xmlfilepath=r'C:\Users\Yeh Chih-En\Desktop\VOC\Annotations' saveBasePath=r"C:\Users\Yeh Chih-En\Desktop\VOC" trainval

製作PASCAL VOC格式的分割資料生成trainval.txt, train.txt, val.txt檔案

import os import random filepath=r'C:\models\research\deeplab\datasets\Headshoulder_dataset\dataset\JPEGImages' saveBasePath=r"C:\models\resear