1. 程式人生 > >幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦

幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦

產品 整理 每天 人類 標記 blog 影響 lan 零售業

原文鏈接

摘要: ◆ ◆ ◆ 菜鳥入門 1. Iris 數據集 在模式識別文獻中,Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術,Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學這一概念,從這裏開始一定沒錯,因為該數據集只有 4 列 150 行。

技術分享

◆ ◆ ◆

菜鳥入門

1. Iris 數據集

在模式識別文獻中,Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術,Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學這一概念,從這裏開始一定沒錯,因為該數據集只有 4 列 150 行。

典型問題:在可用屬性基礎上預測花的類型。

2. 泰坦尼克數據集

泰坦尼克數據集也是全球數據科學殿堂中出鏡率最高的數據集之一。借助一些教程和指導,泰坦尼克數據集可以讓你深入了解數據科學。通過對類別、數字、文本等數據的結合,你能從該數據集中總結出最瘋狂的想法。該數據集更重視分類問題,共有 12 列 891 行。

典型問題:預測泰坦尼克號上生還的幸存者人數。

3. 貸款預測數據集

在所有行業中,最為倚重數據分析技術的就是保險業。貸款預測數據集可以讓保險公司對即將面對的挑戰、選擇的應對方式和影響有一個清晰的認識。與泰坦尼克數據集相同,它也是一個分類問題,該數據集共有 13 列 615 行。

典型問題:預測貸款申請能否得到批準。

4. 大市場銷售數據集

零售業也是數據分析技術的重度使用者之一,它們可以利用分析數據來優化整個商業流程。利用數據科學技術,管理人員可以準確的完成產品分配、庫存管理、供貨和打包等復雜流程。這一數據集的名字已經透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該數據集共有 12 列 8523 行。

典型問題:預測銷售情況。

5. 波士頓數據集

該數據集也是模式識別文獻中的典型數據集,該數據集得名是因為波士頓的房地產行業,同時它也是一個回歸問題。該數據集共有 14 列 8506 行。因此,即使你手上的筆記本電腦性能較弱也能 Hold 住該數據集。

典型問題:預測房屋售價的中間值。

◆ ◆ ◆

進階級別

1. 人類活動識別

該數據集是由 30 個受試人智能手機內置的傳感器收集的。許多機器學習課程中該數據集是學生聯手的重要助手。該數據集屬於多標記分類問題,共有 561 列 10299 行。

典型問題:預測人類活動的類別。

2. “黑五”數據集

該數據集主要是由零售店的交易記錄組成的,它在數據集界資格很老,可以幫助商家了解自己商店每天的購物體驗。“黑五”數據集也是個回歸問題,它共有 12 列 550069 行。

典型問題:預測消費者購物量。

3. 文本挖掘數據集

該數據集包含航空公司飛行數據中關於航空安全問題的報告,屬於多標記分類的高維問題,雷鋒網(公眾號:雷鋒網)了解到它共有 30438 列 21519 行。

典型問題:根據標簽為文檔分類。

4. 訪問歷史數據集

該數據即來源於美國的一個單車分享服務,想掌握它,你必須擁有專業的數據整理技巧。該數據集 2010 年第四季度開始每季度都會總結出一個新文檔,每個文檔則擁有 7 列。它屬於典型的分類問題。

典型問題:預測用戶的類型。

5. 百萬歌曲數據集

是不是覺得很新奇,原來這項技術還能用在娛樂業啊。該數據集能幫你完成回歸問題,它包括 515345 個觀察值和 90 個變量。不過,這還只是百萬首歌曲數據庫中的一個小子集。

典型問題:預測發行歌曲的最佳年份。

原文鏈接

幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦