將GHTorrent中的CSV檔案匯入mysql-workbench
下載GHTorrent資料:開啟連結http://www.ghtorrent.org/,點選選單欄”Downloads“,選擇資料版本並下載,我選的是當前最新版本2018-11-01,壓縮包大約85GB+,解壓縮後300GB+,提醒大家提前預備號足夠的空間。
注意:GHTorrent中的檔案需要在linux系統下操作,你也可以在windows下安裝虛擬機器,怎樣都行,我是選擇安裝的雙系統。而且由於我的GHTorrent資料是在安裝ubuntu雙系統前下載的,所以我現在是在ubuntu系統下操作windows系統的檔案。而且到現在為止還沒出現問題,所以有同樣困惑的小夥伴不用擔心了。
由於是第一次接觸GitHub以及MySQL,所以一切都是陌生的,每一個步走的都如履薄冰,因此把我走的路整理下來記錄怕自己忘了,也順便分享給大家。
再次強調是在ubuntu系統下操作的
操作步驟:
1. 在終端下定位到GHTorrent資料所在路徑,我的路徑是/media/liubc/Data/GHTorrent_Dataset/mysql-2018-11-01/mysql-2018-11-01/
2. 進入mysql模式:命令‘mysql -uroot -p’ 這裡會提示你輸入密碼
3. 建立使用者gtuser,並設定其密碼為1111,使其能夠訪問建立的gt_restore資料庫。命令依次為:
(注意:由於是在mysql模式下,因此前面顯示的會是mysql>,這個不需要手動輸入,但是最後的分號一定要輸入)
mysql>create user
mysql>create user [email protected]'*' identified by '1111';
mysql>create database gt_restore;
mysql>grant all privileges on gt_restore.* to 'gtuser'@'localhost';
mysql>grant all privileges on gt_restore.* to 'gtuser'@'*';
mysql>grant file on *.* to 'gtuser'@'localhost';
最後可以使用命令檢視資料庫是否建立成功。(命令”show databases;”)
4. 開始執行恢復資料操作(這裡可以參考目錄下的README.md檔案,裡面講的就是操作步驟)
在mysql中輸入./ght-restore-mysql -u gtusr -d gt_restore -p 1111
這裡對應之前建立的使用者名稱,資料庫以及密碼
5. 瞭解下載的GHTorrent資料
首先閱讀目錄的下的
README.md
檔案,根據分別檢視
schema.sql
,
indexes.sql
以及
ORDER
檔案。(這都是需要重點關注的檔案,提前檢視會幫你省去很多彎路)
然後檢視所有的
csv
檔案
。
6. 使用source命令先後匯入schema.sql檔案。indexes.sql檔案
命令:mysql>source /xxx/xxx.sql;
7.匯入CSV檔案
(這裡我選擇從workbench中匯入檔案)
選擇資料庫中的指定table,右擊選擇”Table Data Import Wizard“,然後在路徑下選擇對應的CSV檔案。
好了,就記錄到這裡吧,後面有時間再更新~