1. 程式人生 > >西瓜書課後習題——第一章

西瓜書課後習題——第一章

語義 訓練數據 ref 屬性 msu -s 包含 tps 個數

1.1

若表中只包含編號1和4兩個樣例,則訓練數據集為

色澤 根蒂 敲聲 是否好瓜
青綠 蜷縮 濁響
烏黑 稍蜷 沈悶

上表有三個屬性,每個屬性有兩種取值,所以上述數據集的假設空間大小為3*3*3+1=28

編號 色澤 根蒂 敲聲 與訓練集正例是否一致
1 青綠 蜷縮 濁響
2 青綠 蜷縮 沈悶
3 青綠 蜷縮
4 青綠 稍蜷 濁響
5 青綠 稍蜷 沈悶
6
青綠 稍蜷
7 青綠 濁響
8 青綠 沈悶
9 青綠
10 烏黑 蜷縮 濁響
11 烏黑 蜷縮 沈悶
12 烏黑 蜷縮
13 烏黑 稍蜷 濁響
14 烏黑 稍蜷 沈悶
15 烏黑 稍蜷
16 烏黑 濁響
17 烏黑 沈悶
18 烏黑
19 蜷縮 濁響
20 蜷縮 沈悶
21 蜷縮
22 稍蜷 濁響
23 稍蜷 沈悶
24 稍蜷
25 濁響
26 沈悶
27
28 空集

所以版本空間為假設1、3、7、9、19、21、23

1.2

訓練數據集1.1有三個屬性,色澤有3種情況(青綠、烏黑、※),根蒂有4種情況(蜷縮、硬挺、稍蜷、※),敲聲有4種情況(濁響、清脆、沈悶、※),加上空集則共有3*4*4+1=49種假設。在不考慮沈余的情況下,最多包含49個合取式來表達假設空間,每次從中選取k個合取式來組成折合式,共有ΣCk49=249種情況。但是其中包含了很多沈余的情況(至少存在一個合取式被剩余的析合式完全包含<空集除外>)。

https://blog.csdn.net/icefire_tyh/article/details/52065626

1.3

通常認為兩個數據的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個數據的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。

1.4

1.5

問題的特征表示:用一組特征向量來表示問題,需要體現出問題的語義方面的相關信息,類似自然語言處理。

西瓜書課後習題——第一章