Python使用pandas和numpy判斷電影類別(簡單分析)
阿新 • • 發佈:2018-11-22
Python使用pandas和numpy判斷電影類別(簡單分析)
-
因為是簡單分析,所以分析的樣本也很少,更直觀,方便練習。
-
目標:
通過樣本資料分析給出的電影資料屬於那一型別。 -
樣本資料如下:
-
待分析資料:
開始動手:
import numpy as np
import pandas as pd
# 取出資料
data_raw = pd.read_excel('電影分類資料.xlsx')
# 提取出樣本資料
sample_data = data_raw.iloc[:, 2:5].values.tolist()
# 提取出目標資料
target_data = data_raw.iloc[:, 6:].columns[1:4]
target_data = [i for i in target_data]
source = []
for sample in sample_data:
source.append(np.sqrt(
(sample[0] - target_data[0]) ** 2 +
(sample[1] - target_data[1]) ** 2 +
(sample[2] - target_data[2]) ** 2
))
data_raw['source' ] = [int(i) for i in source]
new_sample = data_raw.iloc[:, [5, 10]]
new_sample = new_sample.sort_values('source', inplace=False)
# 值越小表示靠的越近 越相似
# print(new_sample)
print(new_sample.head(5).iloc[:, 0].mode())