沒有數學和程式設計基礎,這幾個資料科學專案瞭解一下
大資料文摘出品
編譯:蔣寶尚
今天,文摘菌給大家介紹幾個比較有特色的資料科學模組,這些模組原本是一些教師用來進行教學使用,幫助學生有機會使用與其課程相關的資料集,並指導學生進行資料分析以及幫助理解統計和計算機原理。
一起來看~
模組合集連結:
https://ds-modules.github.io/DS-Modules/
Introduction to Phonetics and Phonolog
這個模組由兩個實驗組成,實驗所用到的資料都是學生自己收集的,並且在這個模組中,學生獨立分析資料並編碼。在第一個實驗室裡,學生們研究聲音開始以及結束的時間,以及母語口語和身高之間的相關性。在第二個實驗中,學生分析母音發音,並將研究個體相互比較,從而揭示單個元資料對特徵預測能力的影響。該模組適用於沒有編碼或統計經驗的學生。
Neighborhood Mapping
本模組讓學生分析並可視化整個東灣人口普查區的社會經濟和人口變化情況。學生們到社群進行定性觀察,然後與人口普查資料進行比較。把一些的觀察結果組合成一幅地圖。該模組適用於沒有編碼或統計經驗的學生。
Macroeconomics
這個模組包含一些巨集觀經濟學問題集。 第一個notebook幫助學生使用Latex公式以及教他們如何插圖。 第一個notebook的建模部分可視化了索洛增長模型。該模組還使用自動評分功能可以及時反饋學生提交的作業。同樣,該模組也適用於沒有編碼或統計經驗的學生
Chinatown and Culture of Exclusion
使用20世紀-21世紀的人口統計資料,讓學生分析一個特定的唐人街隨著時間的推移是如何變化的。在實驗過程中,學生可以使用一些簡單的文字分析方法做相關研究。
Implicit Bias and Social Outcomes
本模組向學生介紹相關和迴歸分析。學生從一個關於健康結果的資料集和一組關於內隱偏見的資料集中挑選出整個美國的縣級資料集。然後,他們將這兩個資料集合並,並計算相關性和進行迴歸預測,從而確定偏見與健康結果之間是否存在相關性。
Moral Foundations Theory
這些模組將政治演講中的詞彙使用與道德基礎理論聯絡起來。這些資料的統計推斷和視覺化幫助學生尋找保守派和自由派總統候選人之間的修辭差異。然後,學生們將資料驅動的方法作為修辭工具進行研究和批判。
Sumerian Text Analysis
本模組使用一個有趣的資料集,即蘇美爾文學電子文字語料庫(ETCSL)。這些文字是從六千年前的資料中翻譯出來的。在本模組中使用的技術在文字分析中不太常見,如k均值、分層聚類和多維縮放。
Data, Prediction, and Law
利用2016年美國總統競選演講的資料,學生從語音文字中挖掘特徵,視覺化這些特徵,並用主成分分析提取特徵。該模組最後給出了一個三維特徵圖的例子,此模組需要學生有一些統計學知識。
最後,在次給出專案合集: