數(shù)據(jù)挖掘的讀書筆記

時(shí)間：2024-06-27 13:28:27 美云讀書筆記我要投稿

相關(guān)推薦

數(shù)據(jù)挖掘的讀書筆記

　　數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗(yàn)法則）和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。目前喲普與大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)挖掘在很多高等院校已經(jīng)成為一門獨(dú)立的學(xué)科。下面是數(shù)據(jù)挖掘的相關(guān)讀書筆記。歡迎大家閱讀。

數(shù)據(jù)挖掘的讀書筆記

　　數(shù)據(jù)挖掘的讀書筆記 1

　　一、數(shù)據(jù)挖掘概念（即什么是數(shù)據(jù)挖掘）

　　我們生活在數(shù)據(jù)時(shí)代，各行各業(yè)每天都產(chǎn)生巨大的數(shù)據(jù)。數(shù)據(jù)的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具，以便從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息，把這些數(shù)據(jù)轉(zhuǎn)換成有組織的、可利用的知識。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生。

　　數(shù)據(jù)挖掘?qū)嶋H上是從數(shù)據(jù)中挖掘知識，由以下步驟的迭代組成：

　　(1)數(shù)據(jù)清理（消除噪聲和刪除不一致數(shù)據(jù)）

　　(2)數(shù)據(jù)集成（多種數(shù)據(jù)源可以組合在一起）

　　(3)數(shù)據(jù)選擇（從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)）

　　(4)數(shù)據(jù)變換（通過匯總或聚集操作，把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式）

　　(5)數(shù)據(jù)挖掘（基本步驟，使用智能方法提取數(shù)據(jù)模式）

　　(6)模式評估（根據(jù)某種興趣度度量，識別代表知識的真正有趣的模式）

　　(7)知識表示（使用可視化和知識表示技術(shù)，向用戶提供挖掘的知識）關(guān)系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的信息源，因此它是我們數(shù)據(jù)挖掘研究研究的一種主要數(shù)據(jù)形式。

　　二、數(shù)據(jù)挖掘技術(shù)（即怎樣進(jìn)行數(shù)據(jù)挖掘）

　　1、可以挖掘什么類型的模式特征化與區(qū)分、頻繁模式、關(guān)聯(lián)和相關(guān)性挖掘，分類與回歸，聚類分析，離群點(diǎn)分析。數(shù)據(jù)挖掘可以被用來進(jìn)行市場分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。

　　2、使用什么技術(shù)

　　1)首先要認(rèn)識數(shù)據(jù)，一個(gè)數(shù)據(jù)對象代表一個(gè)實(shí)體，又稱樣本、實(shí)例、數(shù)據(jù)點(diǎn)或?qū)ο蟆?屬性是一個(gè)數(shù)據(jù)字段，表示數(shù)據(jù)對象的一個(gè)特征，又稱維、特征和變量。

　　2)數(shù)據(jù)描述中心趨勢度量：均值、中位數(shù)和眾數(shù) 度量數(shù)據(jù)散布：極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差通過基于像素的可視化技術(shù)等清晰有效的表達(dá)數(shù)據(jù)

　　3)進(jìn)行數(shù)據(jù)預(yù)處理，包括數(shù)據(jù)變換與數(shù)據(jù)離散化。數(shù)據(jù)變換策略：光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化、由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層數(shù)據(jù)離散化策略：分箱、直方圖分析、聚類決策樹和相關(guān)分析

　　4)然后需要建立數(shù)據(jù)倉庫進(jìn)行處理，數(shù)據(jù)倉庫：是一種數(shù)據(jù)庫，它允許將各種應(yīng)用系統(tǒng)集成在一起，為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺，對信息處理提供支持。數(shù)據(jù)倉庫的構(gòu)建需要數(shù)據(jù)集成、數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)一。

　　5)聯(lián)機(jī)分析處理可以，在使用多維數(shù)據(jù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市上進(jìn)行，使用數(shù)據(jù)立方體結(jié)構(gòu)，OLAP操作可以有效的實(shí)現(xiàn)。

　　數(shù)據(jù)立方體計(jì)算的一般策略：排序、散列和分組同時(shí)聚集和緩存中間結(jié)果

　　當(dāng)存在多個(gè)子女方體時(shí)，由最小的子女聚集可以使用先驗(yàn)剪枝方法有效的'計(jì)算冰山立方體

　　數(shù)據(jù)立方體計(jì)算方法：多路數(shù)組聚集，基于稀疏數(shù)組的、自底向上的、共享計(jì)算的物化整個(gè)數(shù)據(jù)立方體 BUC，通過探查有效的自頂向下計(jì)算次序和排序計(jì)算冰山立方體 Star-Cubing,使用星樹結(jié)構(gòu)，集成自頂向下和自底向上計(jì)算，計(jì)算冰山立方體外殼片段立方體，通過僅預(yù)計(jì)算劃分的立方體外殼片段，支持進(jìn)行高維OLAP

　　6）挖掘頻繁模式和關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘方法： Apriori算法（通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集），由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則，提高Apriori算法的效率，挖掘頻繁項(xiàng)集的模式增長方法，使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集，挖掘閉模式和極大模式