1. 程式人生 > >將GHTorrent中的CSV檔案匯入mysql-workbench

將GHTorrent中的CSV檔案匯入mysql-workbench

下載GHTorrent資料:開啟連結http://www.ghtorrent.org/,點選選單欄”Downloads“,選擇資料版本並下載,我選的是當前最新版本2018-11-01,壓縮包大約85GB+,解壓縮後300GB+,提醒大家提前預備號足夠的空間。

注意:GHTorrent中的檔案需要在linux系統下操作,你也可以在windows下安裝虛擬機器,怎樣都行,我是選擇安裝的雙系統。而且由於我的GHTorrent資料是在安裝ubuntu雙系統前下載的,所以我現在是在ubuntu系統下操作windows系統的檔案。而且到現在為止還沒出現問題,所以有同樣困惑的小夥伴不用擔心了。

由於是第一次接觸GitHub以及MySQL,所以一切都是陌生的,每一個步走的都如履薄冰,因此把我走的路整理下來記錄怕自己忘了,也順便分享給大家。

再次強調是在ubuntu系統下操作的

操作步驟:

1. 在終端下定位到GHTorrent資料所在路徑,我的路徑是/media/liubc/Data/GHTorrent_Dataset/mysql-2018-11-01/mysql-2018-11-01/

2. 進入mysql模式:命令‘mysql -uroot -p’ 這裡會提示你輸入密碼

3. 建立使用者gtuser,並設定其密碼為1111,使其能夠訪問建立的gt_restore資料庫。命令依次為:

(注意:由於是在mysql模式下,因此前面顯示的會是mysql>,這個不需要手動輸入,但是最後的分號一定要輸入)

mysql>create user

[email protected]'localhost' identified by '1111';

mysql>create user [email protected]'*' identified by '1111';

mysql>create database gt_restore;

mysql>grant all privileges on gt_restore.* to 'gtuser'@'localhost';

mysql>grant all privileges on gt_restore.* to 'gtuser'@'*';

mysql>grant file on *.* to 'gtuser'@'localhost';

最後可以使用命令檢視資料庫是否建立成功。(命令”show databases;”)

4. 開始執行恢復資料操作(這裡可以參考目錄下的README.md檔案,裡面講的就是操作步驟)

在mysql中輸入./ght-restore-mysql -u gtusr -d gt_restore -p 1111

這裡對應之前建立的使用者名稱,資料庫以及密碼

5. 瞭解下載的GHTorrent資料

首先閱讀目錄的下的README.md檔案,根據分別檢視schema.sqlindexes.sql以及ORDER檔案。(這都是需要重點關注的檔案,提前檢視會幫你省去很多彎路)

然後檢視所有的csv檔案

6. 使用source命令先後匯入schema.sql檔案。indexes.sql檔案

命令:mysql>source /xxx/xxx.sql;

7.匯入CSV檔案這裡我選擇從workbench中匯入檔案

選擇資料庫中的指定table,右擊選擇”Table Data Import Wizard“,然後在路徑下選擇對應的CSV檔案。

 

好了,就記錄到這裡吧,後面有時間再更新~