1. 程式人生 > >《資料探勘概念與技術》第二版 中文版 第一章答案

《資料探勘概念與技術》第二版 中文版 第一章答案

引言

1.1 什麼是資料探勘?在你的回答中,針對以下問題:

 a. 它是又一種廣告宣傳嗎?
 b. 它是一種從資料庫、統計學和機器學習發展的技術的簡單轉換嗎?
 c. 解釋資料庫技術發展如何導致資料探勘
 d. 當把資料探勘看作知識發現過程時,描述挖掘所涉及的步驟。

回答:

資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際資料中,提取隱含在其中的、人們所不知道的、但又是潛在有用資訊和知識的過程。

  a. 資料探勘不是另一種廣告宣傳,大規模資料的可利用性以及將大規模資料轉化為有用資訊的迫切性導致了資料探勘的興起,因此資料探勘可以被看作是資訊科技自然演變的結果。
  b.資料探勘不是一種從資料庫、統計學和機器學習發展的技術的簡單轉換。從資料庫的觀點來看,資料探勘可以看做聯機分析處理(OLAP)的高階階段,通過結合多學科知識(例如統計學、機器學習等)達到更高階的資料分析能力。資料探勘涉及多學科技術的整合,包括資料庫和資料倉庫技術、統計學、機器學習、高效能運算、模式識別、神經網路、資訊檢索等等。
  c.資料庫技術開始於資料收集和資料庫建立機制的發展,導致了用於資料管理的有效機制,包括資料儲存和檢索,查詢和事務處理的發展。提供查詢和事務處理的大量的資料庫系統最終自然地導致了對資料分析和理解的需要。隨著計算機技術的發展,推動了資料庫和資訊產業的發展,快速增長的海量資料收集、存放在大型和大量資料儲存庫中,沒有強有力的工具,理解他們已經遠遠超出了人的能力,資料探勘工具應運而生。
  d.當把資料探勘視為知識發現過程的一個基本步驟時,涉及步驟如下: 資料清理(一個刪除或消除噪聲和不一致的資料的過程); 資料整合(多種資料來源可以組合在一起); 資料選擇(從資料庫中提取與分析任務相關的資料); 資料變換(資料變換或統一成適合挖掘的形式,如通過彙總或聚集操作); 資料探勘(基本步驟也是**最重要的步驟**,使用智慧方法提取資料模式); 模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式); 知識表示(使用視覺化和知識表示技術,向用戶提供挖掘的知識)。
  其實,在真正的工程中資料探勘主要包括:資料的預處理(去重、消噪等)、特徵選擇(目的為降維等等)、建模方法選擇(資料分析方法的選擇,根據具體的任務選擇不同的分類器或者聚類器或者預測模型等)、模型評估(根絕具體的專案要求選擇不同的模型評估方法,比如精確率、召回率等等)、模型的調整(例如調參等等)、模型的確定以及應用。

1.2 給出一個例子,其中資料探勘對於商務的成功是至關重要的。該商務需要什麼資料探勘功能?它們能夠用資料查詢處理或這簡單的統計技術完成嗎?

 回答:

例如捆綁銷售(啤酒喝尿布的故事)可以利用關聯規則挖掘,找出顧客經常一起購買的商品,那麼零售商在安排貨物擺放的時候將頻繁一起購買的商品擺放在一起,可以有效的提高銷售效益。資料查詢處理主要應用於資料的查詢和資訊檢索方面,無法實現頻繁項集發現功能。同樣的,簡單的統計技術無法完成大規模資料的分析。

1.3

相關推薦

資料概念技術第二 中文版 第一答案

引言 1.1 什麼是資料探勘?在你的回答中,針對以下問題: a. 它是又一種廣告宣傳嗎? b. 它是一種從資料庫、統計學和機器學習發展的技術的簡單轉換嗎? c. 解釋資料庫技術發展如何導致資料探勘 d. 當把資料探勘看作知識發現過程時,描述挖掘所

資料概念技術(原書第三)範明 孟小峰譯-----第六課後習題答案

第六章答案 第六章答案 該答案為重慶大學計算機學院Jack Channy所作,由於本人水平有限,難免有錯誤和不當之處,如有意見請評論或者發郵件至[email protected]。 6.1 假設有資料集D上所有閉頻繁項集

資料概念技術》學習筆記

1.Chapter1 引論: (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 聯機事物處理,就是我們經常說的關係資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。例如:mysql OLAP(on

資料概念技術】學習筆記6-挖掘頻繁模式、關聯和相關性:基本概念和方法(編緝中)

頻繁模式是頻繁地出現在資料集中的模式(如項集、子序列或子結構)。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子,想象全域是商店中商品的集合,每種商品有一個布林變數,表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量,得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示

資料概念技術》讀書筆記

最近在學習資料探勘和資料分析相關內容,在很多地方有很多朋友都推薦該書,遂購書一本,以作學習之用,把讀書過程中一些習得記錄在此,以備查閱。 第一章 引論 1.1 為什麼進行資料探勘 現在的我們生活在一個資訊時代,每天都有各種各樣大量的資料產生並儲存到

資料概念技術 第2 認識資料

本文主要介紹資料物件與屬性,資料的基本統計描述,資料視覺化和度量資料的相似性和相異性。 2.1 資料物件與屬性類別 資料集由資料物件組成,一個數據物件代表一個實體。通常資料物件用屬性描述。資料物件又稱樣本、例項、資料點或物件。如果資料物件存放在資

資料概念技術——讀書筆記(1)

原書第三版 Jiawei Han     Micheline Kamber     Jian Pei  著 第一章 引論 為什麼進行資料探勘 解決“資料豐富,但資訊貧乏”的問題。 資料的爆炸式增長,廣泛可用,巨大數量  ——>   資料時代 

資料概念技術》讀書筆記(一)

轉自:http://blog.csdn.net/zhucanxiang/article/details/9843901 之前看過經典的《資料探勘導論》,然後又看了韓家煒的《資料探勘概念與技術》這本資料探勘入門書籍,對資料探勘也有了一個初步的瞭解,特此寫篇文章總結一下自己

資料概念技術——讀書筆記(2)

原書第三版 Jiawei Han   Micheline Kamber   Jian Pei 著 第二章 認識資料 在進行資料探勘之前,首先需要準備好資料,熟悉資料。 資料物件與屬性型別 一個數據物件代表一個實體,又稱樣本、例項、資料點或物件。

資料 概念技術——讀書筆記(8)

基本概念 什麼是分類 構造一個模型或分類器來預測類標號 類別可以用離散值表示,且其中的次序沒有意義。 預測一個連續函式或有序值 預測器進行數值預測,迴歸分析是最常用的方法。 分類的一般方法 學習階段 使用訓練元祖構建分類模型,由於提供了每個訓

資料概念分析第八筆記

分類的基本概念 分類  分類是一種重要的資料分析形式,它提取刻畫重要資料類的模型,這種模型稱為分類器,預測分類(離散的,無序的)類標號。 分類和數值預測是預測問題的兩種主要型別。 分類的一般方法  資料分類涉及兩個過程: 1:學習階段:建立描述預先定義的資料類或概

資料概念分析第六筆記

挖掘頻繁模式 頻繁模式是頻繁地出現在資料集中的模式,主要包括頻繁項集模式,頻繁序列模式,和頻繁結構模式。 我們先了解什麼是項集,K-項集,資料集,絕對支援值的概念。書中都有講解,這裡簡單的來說一下。 項集:最基本的模式就是項集,是指若干個項的集合 K-項集:包含K個項

分享《Python資料入門實踐》高清中文版+高清英文版+原始碼

下載:https://pan.baidu.com/s/1J7DOGrjoF7HnaSZ8LvFh_A更多資料分享:http://blog.51cto.com/3215120 《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼 高清中文版PDF,251頁,帶目錄和書籤,能夠複製貼上;高清英文版

【Mark Schmidt課件】機器學習資料——MLEMAP

本課件的主要內容包括: 上次課程回顧:多元線性分類器 決策邊界形狀 識別重要電子郵件 Sigmoid函式 最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi

資料概念雜記

混淆矩陣 利用混淆矩陣可更好的分辨出分類中分錯誤的。 1. 資料集中的記錄總數=TP+FP+FN+TN 2. 資料集中肯定記錄數=TP+FN 3. 資料集中否定記錄數=FP+TN 4. 分類模型作出陽性判斷的記錄數=TP+FP 5. 分類模型作出陰性判斷的記錄數=FN+TN 6. 分類模

Python資料入門實戰:第一

程式碼來源於:https://github.com/hLvMxM/Learning_Data_Mining_with_Python/blob/master/Chapter 1/ch1_affinity.ipynb 其中註釋是在自己學習中加上去的, 便於初學者看懂 分析文字為:affinity

python資料入門實踐----------特徵值,主成分分析

#http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ import os import pandas as pd adult_filename ="adult.data" adult = pd.read_csv(adu

python資料入門實踐-----------通過親和力分析推薦電影(Apriori)

嚶~本節程式碼比著書上的原始碼看了一遍並加上了自己的理解註釋,但並沒有執行成功,因為他執行警告,我還不會改錯 親和力分析:從頻繁出現的商品中選取共同出現額商品組成頻繁項集,生成關聯規則 import os import pandas as pd import sys #資料讀取 rating

python資料入門實踐--------轉換器(資料處理)流水線

y=MinMaxScaler().fit_transform(x)  y與x為同型矩陣,y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

python資料入門實踐--------電離層(Ionosphere), scikit-learn估計器,K近鄰分類器,交叉檢驗,設定引數

ionosphere.data下載地址:http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載  https://github.com/xxg1413/MachineLea