- 相關(guān)推薦
在電子商務(wù)中如何正確的使用數(shù)據(jù)挖掘技術(shù)
摘要:對于企業(yè)而言,數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢,幫助企業(yè)做出正確的決策,使企業(yè)處于更有利的競爭位置。數(shù)據(jù)挖掘中應(yīng)用的技術(shù)包括經(jīng)典的統(tǒng)計(jì)、近鄰、聚類,也包括最新發(fā)展起來的決策樹、神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則等一些較新的方法。當(dāng)實(shí)際開發(fā)一個(gè)數(shù)據(jù)挖掘系統(tǒng)時(shí),究竟應(yīng)該選擇哪種數(shù)據(jù)挖掘技術(shù),往往是一件很困難的事情。本文結(jié)合數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用,提出選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù),以便開發(fā)出有效、實(shí)用的數(shù)據(jù)挖掘系統(tǒng)。
關(guān)鍵詞:數(shù)據(jù)挖掘 電子商務(wù) 關(guān)聯(lián)分析 分類 聚類
1引言
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,全球傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入地了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司創(chuàng)造更多潛在的利潤,數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開發(fā)出來的。數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,其核心技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括統(tǒng)計(jì)、近鄰、聚類、決策樹、神經(jīng)網(wǎng)絡(luò)和規(guī)則等。今天,這些成熟的技術(shù)在電子商務(wù)中已進(jìn)入了實(shí)用階段,并取得了良好的效果。但數(shù)據(jù)挖掘作為一個(gè)新興領(lǐng)域,在實(shí)際應(yīng)用當(dāng)中仍存在許多尚未解決的問題。其中最困難的往往在于決定什么時(shí)候采用哪種數(shù)據(jù)挖掘技術(shù)。為了對數(shù)據(jù)挖掘技術(shù)進(jìn)行明智的選擇,本文結(jié)合數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用,從挖掘任務(wù)和數(shù)據(jù)信息兩個(gè)角度進(jìn)行分析,指出各種數(shù)據(jù)挖掘技術(shù)適用的場合,以便開發(fā)出切實(shí)可用的數(shù)據(jù)挖掘系統(tǒng)。
2數(shù)據(jù)挖掘的概念及其在電子商務(wù)中的應(yīng)用
2.1數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是通過挖掘數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢的過程。從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測模型而不是回顧型的模型。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。
2.2數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
由于數(shù)據(jù)挖掘能帶來顯著的經(jīng)濟(jì)效益,它在電子商務(wù)中(特別是金融業(yè)、零售業(yè)和電信業(yè))應(yīng)用也越來越廣泛。
在金融領(lǐng)域,管理者可以通過對客戶償還能力以及信用的分析,進(jìn)行分類,評出等級。從而可減少放貸的麻木性,提高資金的使用效率。同時(shí)還可發(fā)現(xiàn)在償還中起決定作用的主導(dǎo)因素,從而制定相應(yīng)的金融政策。更值得一提的是通過對數(shù)據(jù)的分析還可發(fā)現(xiàn)洗黑錢以及其它的犯罪活動(dòng)。
在零售業(yè),數(shù)據(jù)挖掘可有助于識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,改進(jìn)服務(wù)質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本。
電信業(yè)已經(jīng)迅速地從單純的提供市話和長話服務(wù)演變?yōu)榫C合電信服務(wù),如語音、傳真、尋呼、移動(dòng)電話、圖像、電子郵件、計(jì)算機(jī)和WEB數(shù)據(jù)傳輸以及其它的數(shù)據(jù)通信服務(wù)。電信、計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)和各種其它方式的通信和計(jì)算的融合是目前的大勢所趨。而且隨著許多國家對電信業(yè)的開放和新型計(jì)算與通信技術(shù)的發(fā)展,電信市場正在迅速擴(kuò)張并越發(fā)競爭激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好的利用資源和提高服務(wù)質(zhì)量是非常有必要的。分析人員可以對呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式等信息進(jìn)行分析,還可以通過挖掘進(jìn)行盜用模式分析和異常模式識別,從而可盡早發(fā)現(xiàn)盜用,為公司減少損失。
3選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
3.1不同的挖掘任務(wù)使用不同的挖掘技術(shù)
數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘可分為概念描述、聚集發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、分類發(fā)現(xiàn)、回歸發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等。在選擇使用某種數(shù)據(jù)挖掘技術(shù)之前,首先要將待解決的商業(yè)問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘的任務(wù),然后根據(jù)挖掘的任務(wù)來選擇具體使用某一種或幾種挖掘技術(shù)。下面具體的分析每一種挖掘任務(wù)應(yīng)使用哪些挖掘技術(shù)。
概念描述
概念描述是描述式數(shù)據(jù)挖掘的最基本形式。它以簡潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。概念描述由特征化和比較組成。數(shù)據(jù)特征化是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。通常,用戶指定類的數(shù)據(jù)通過數(shù)據(jù)庫查詢收集。例如,為研究上一年銷售增加10%的軟件產(chǎn)品的特征,可以通過執(zhí)行一個(gè)SQL查詢收集關(guān)于這些產(chǎn)品的數(shù)據(jù)。概念的特征化有兩種一般方法:基于數(shù)據(jù)立方體OLAP的方法和面向?qū)傩詺w納的方法。二者都是基于屬性或維的概化方法.?dāng)?shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。數(shù)據(jù)區(qū)分是將目標(biāo)類對象的一般特征與一個(gè)或多個(gè)對比類對象的一般特征比較。例如,將上一年銷售增加10%的軟件產(chǎn)品與同一時(shí)期銷售至少下降30%的那些產(chǎn)品進(jìn)行比較。用于數(shù)據(jù)區(qū)分的方法與用于數(shù)據(jù)特征化的方法類似?傊,進(jìn)行概念描述挖掘時(shí)一般采用面向數(shù)據(jù)庫的方法,另外還可以采用機(jī)器學(xué)習(xí)方法的基于范例學(xué)習(xí)技術(shù)。與機(jī)器學(xué)習(xí)方法相比,面向數(shù)據(jù)庫的概念描述導(dǎo)致在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫中的有效性和可伸縮性。
聚集發(fā)現(xiàn)
聚集是把整個(gè)數(shù)據(jù)庫分成不
【在電子商務(wù)中如何正確的使用數(shù)據(jù)挖掘技術(shù)】相關(guān)文章:
談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用03-21
數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用03-28
數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用03-22
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21
電子商務(wù)中數(shù)據(jù)挖掘方法淺談03-01
數(shù)據(jù)挖掘技術(shù)在飯店?duì)I銷中的運(yùn)用03-28
淺析數(shù)據(jù)庫管理系統(tǒng)中模糊查詢技術(shù)的正確使用03-04