談聚類挖掘在電子商務(wù)中的應(yīng)用

時(shí)間：2024-08-23 02:26:55 電子商務(wù)畢業(yè)論文我要投稿

相關(guān)推薦

摘要：闡述了在電子商務(wù)系統(tǒng)中的研究和應(yīng)用中，利用基于關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法，對(duì)Web網(wǎng)頁和用戶進(jìn)行有效聚類。該方法借助網(wǎng)站層次圖，可以根據(jù)實(shí)際需要，在各個(gè)層次上進(jìn)行聚類分析，僅將高度相關(guān)的網(wǎng)頁和用戶聚在同一類，而將關(guān)聯(lián)性較小的網(wǎng)頁排除在聚類外。

關(guān)鍵詞：聚類挖掘電子商務(wù) 關(guān)聯(lián)規(guī)則超圖
　　
　　由于Web具有方便、易用、高效的特點(diǎn)，電子商務(wù)顯示出越來越強(qiáng)大的生命力，同時(shí)各種商業(yè)Web站點(diǎn)也面臨越來越激烈的競爭。
　　有效聚類Web用戶和網(wǎng)頁對(duì)改進(jìn)網(wǎng)站質(zhì)量、完善電子商務(wù)中產(chǎn)品銷售策略具有十分重要的意義。在電子商務(wù)中，瀏覽模式相似的用戶具有相似的購買習(xí)慣，通過聚類挖掘，將這些用戶聚集在同一類，可以制定相似的銷售策略。根據(jù)瀏覽模式聚集在同一類中的網(wǎng)頁，是大多數(shù)用戶共同訪問的網(wǎng)頁，在這些網(wǎng)頁之間建立超鏈接，以方便用戶使用。
　　現(xiàn)有的基于瀏覽模式的Web聚類挖掘研究方法中，只要用戶請(qǐng)求了一個(gè)網(wǎng)頁，便認(rèn)為用戶閱讀了該網(wǎng)頁，事實(shí)上有些被請(qǐng)求的網(wǎng)頁用戶并不關(guān)心，不會(huì)認(rèn)真閱讀的。通常一個(gè)實(shí)用網(wǎng)站包含大量的網(wǎng)頁，現(xiàn)有的Web聚類方法將每個(gè)網(wǎng)頁當(dāng)作一個(gè)被聚項(xiàng)，無論用戶訪問的頻繁與否，總是歸入一個(gè)類中，結(jié)果造成有些類中的網(wǎng)頁之間幾乎沒有相關(guān)性。
　　鑒于以上考慮，本文提出了基于關(guān)聯(lián)規(guī)則和超圖分割的聚類Web網(wǎng)頁及用戶的方法，不僅考慮了用戶瀏覽網(wǎng)頁的時(shí)間長短，還考慮了聚類層次（級(jí)別），將不相關(guān)網(wǎng)頁項(xiàng)排除在聚類之外，使每個(gè)類中的網(wǎng)頁具有較高的相關(guān)性。采用這種方法，可以優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu)，指導(dǎo)企業(yè)調(diào)整營銷策略，給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。
　　
　　一、建立電子商務(wù)網(wǎng)站的層次模型
　　
　　建立電子商務(wù)網(wǎng)站的層次模型出于三點(diǎn)考慮。第一，網(wǎng)站中網(wǎng)頁內(nèi)容組織呈現(xiàn)樹狀結(jié)構(gòu)。第二，在進(jìn)行關(guān)聯(lián)規(guī)則挖掘過程中，可能最下一級(jí)挖掘不出達(dá)到指定Support的強(qiáng)規(guī)則，但是能從上級(jí)層次挖掘出達(dá)到指定Support的強(qiáng)規(guī)則，或根據(jù)實(shí)際需要在某一個(gè)層次進(jìn)行聚類分析。第三，對(duì)于電子商務(wù)網(wǎng)站，有些用戶雖然訪問了某網(wǎng)頁，但是對(duì)其內(nèi)容并不感興趣，可能只是掃一眼就放棄。在此情況下，不應(yīng)該認(rèn)為用戶認(rèn)真閱讀了該網(wǎng)頁，所以應(yīng)該記錄網(wǎng)頁的長度，通過計(jì)算用戶的瀏覽時(shí)間和網(wǎng)頁長度的比值來判斷用戶是否真正認(rèn)真閱讀了該頁內(nèi)容。
　　層次模型采用樹狀結(jié)構(gòu)來描述，節(jié)點(diǎn)的數(shù)據(jù)域包含對(duì)應(yīng)網(wǎng)頁的層次名稱（編號(hào)）和網(wǎng)頁長度。樹根應(yīng)該取所研究的網(wǎng)站根目錄（研究整個(gè)網(wǎng)站）或所研究的網(wǎng)站分支的最上層目錄。在建立層次模型時(shí)，應(yīng)根據(jù)網(wǎng)站的具體情況決定采用的方法。通常情況下，網(wǎng)頁文件名能完全反映網(wǎng)頁所在的層次，可以采用完全自動(dòng)方法進(jìn)行轉(zhuǎn)換。
　　
　　二、基于關(guān)聯(lián)規(guī)則的聚類挖掘
　　
　　1.預(yù)處理
　　在Web站點(diǎn)中，服務(wù)器日志文件記錄用戶的訪問方式、所訪問的頁面、訪問時(shí)間、用戶IP地址等信息，通過收集Web日志所記錄的用戶瀏覽信息可以對(duì)網(wǎng)頁和用戶聚類。首先要對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理，獲得每個(gè)用戶所訪問的網(wǎng)頁序列。將一個(gè)用戶對(duì)某個(gè)特定網(wǎng)站的一次連續(xù)瀏覽（從登錄該網(wǎng)站一直到離開該網(wǎng)站）所訪問的網(wǎng)頁序列稱為一個(gè)用戶瀏覽事務(wù)。如果用戶中途訪問了另一網(wǎng)站，而后又返回該網(wǎng)站，返回后所瀏覽的網(wǎng)頁序列將組成另一個(gè)用戶瀏覽事務(wù)。處理后的事務(wù)序列將具有如下的形式：
　　u_id（用戶標(biāo)志編號(hào)），p_id(頁面編號(hào))序列
　　2.挖掘關(guān)聯(lián)規(guī)則并計(jì)算關(guān)聯(lián)規(guī)則可信度的平均值
　　對(duì)經(jīng)過預(yù)處理的瀏覽事務(wù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘，挖掘出滿足一定支持度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是在挖掘出頻繁網(wǎng)頁集的基礎(chǔ)上發(fā)現(xiàn)的，由于頻繁網(wǎng)頁集是大多數(shù)用戶在一個(gè)事務(wù)，即一次網(wǎng)站訪問中所共同瀏覽的頁面，所以頻繁網(wǎng)頁集反映了這些網(wǎng)頁或共同訪問這些網(wǎng)頁的用戶之間存在一定的聯(lián)系，如網(wǎng)頁內(nèi)容高度相關(guān)。在進(jìn)行聚類時(shí)，應(yīng)該首先考慮將頻繁網(wǎng)頁集中的網(wǎng)頁聚合在一個(gè)類中。
　　通常挖掘頻繁網(wǎng)頁集的方法是在給定某一支持度的基礎(chǔ)上進(jìn)行的，滿足該給定支持度的一個(gè)頻繁網(wǎng)頁集中的網(wǎng)頁可能是另一個(gè)或另幾個(gè)頻繁網(wǎng)頁集中的元素，那么將這些網(wǎng)頁應(yīng)該聚合到前一項(xiàng)目集還是后面的某一項(xiàng)目集？正確的選擇應(yīng)該是看這些網(wǎng)頁和哪一項(xiàng)目集聯(lián)系更為密切，可采用的方案有兩種：提高支持度繼續(xù)挖掘頻繁網(wǎng)頁集直到每一網(wǎng)頁僅處于一個(gè)項(xiàng)目集或利用各頻繁網(wǎng)頁集中網(wǎng)頁之間關(guān)聯(lián)規(guī)則的可信度。進(jìn)一步仔細(xì)分析，前一方案不可取，首先可能不存在一個(gè)支持度使每個(gè)網(wǎng)頁僅位于一個(gè)頻繁網(wǎng)頁集中；其次即使存在這樣一個(gè)支持度，再進(jìn)行多次的頻繁網(wǎng)頁集挖掘代價(jià)也太高，實(shí)際中是不可行的。
　　相比之下，后一方案可行度高，在挖掘出滿足指定支持度的頻繁網(wǎng)頁集的基礎(chǔ)上，可以較為方便地計(jì)算出每一個(gè)頻繁網(wǎng)頁集中的每個(gè)關(guān)聯(lián)規(guī)則的可信度�？尚哦鹊拇笮∫卜从沉司W(wǎng)頁之間關(guān)聯(lián)的密切程度。為此，計(jì)算每個(gè)頻繁網(wǎng)頁集中所有的關(guān)聯(lián)規(guī)則的可信度，在此基礎(chǔ)上計(jì)算其所有關(guān)聯(lián)規(guī)則可信度的平均值，用可信度的平均值反映網(wǎng)頁與不同的頻繁網(wǎng)頁集之間聯(lián)系的密切程度。
　　3.利用超圖進(jìn)行網(wǎng)頁聚類
　　超圖是對(duì)圖的擴(kuò)充，允許一條邊連接三個(gè)或三個(gè)以上的點(diǎn)。每條邊帶有權(quán)的超圖稱為加權(quán)超圖，在挖掘出頻繁網(wǎng)頁集和關(guān)聯(lián)規(guī)則的基礎(chǔ)上，可以得到網(wǎng)站的加權(quán)超圖。超圖中的一個(gè)頂點(diǎn)代表一個(gè)網(wǎng)頁，超圖的邊稱為超邊，超邊連接的頂點(diǎn)是頻繁網(wǎng)頁集中的網(wǎng)頁。每個(gè)超邊的權(quán)取該邊所對(duì)應(yīng)的頻繁網(wǎng)頁集中所有關(guān)聯(lián)規(guī)則可信度的平均值�！�
　　上圖為超圖的示意圖，代表A，B和C所組成的頻繁網(wǎng)頁集的超邊的權(quán)值，0.7是A，B和C三個(gè)網(wǎng)頁所組成的所有關(guān)聯(lián)規(guī)則可信度的平均值。
　　為了使聚集結(jié)果的每個(gè)類中的網(wǎng)頁具有高度相關(guān)性，超圖中僅包含出現(xiàn)在強(qiáng)關(guān)聯(lián)規(guī)則中的網(wǎng)頁。利用超圖進(jìn)行聚類的方法是逐步切割超邊將超圖進(jìn)行分割，分割成多個(gè)子超圖，分割的原則是被切割的超邊的權(quán)值和盡可能小，從而保證將相互關(guān)聯(lián)比較小的網(wǎng)頁分割在不同的子圖，而將關(guān)聯(lián)比較密切的網(wǎng)頁保留在同一子圖內(nèi)。分割過程繼續(xù)進(jìn)行直到被切割超邊的權(quán)值和與留下的超邊權(quán)值和的比值大于某一臨界值，或所得到的子超圖數(shù)目達(dá)到某指定值，分割過程結(jié)束，留下的各子超圖便是聚類的結(jié)果。每一個(gè)子超圖對(duì)應(yīng)一個(gè)聚類，超圖中的各頂點(diǎn)代表該聚類中所包含的網(wǎng)頁。
　　4.事務(wù)和用戶聚類
　　在將網(wǎng)頁進(jìn)行聚類的基礎(chǔ)上，可以將瀏覽網(wǎng)站的事務(wù)和用戶進(jìn)行聚類。瀏覽事務(wù)聚類的原則是根據(jù)事務(wù)和網(wǎng)頁聚類的相似度進(jìn)行，將事務(wù)聚合在相似度最高的網(wǎng)頁類中。事務(wù)和網(wǎng)頁類的相似度可以按照如下公式計(jì)算：
　　|Tj∩Ci|/|Ci|
　　其中，Tj為一個(gè)事務(wù)，Ci為一個(gè)聚類，|Tj∩Ci|為Tj和Ci中所包含的相同頁面的數(shù)目，|Ci|為Ci中所包含的頁面數(shù)目。
　　在記錄網(wǎng)站用戶標(biāo)志的情況下，可以通過用戶的瀏覽事務(wù)聚類將用戶進(jìn)行聚類，即將訪問相似網(wǎng)頁的用戶聚在同一類。
　　5.聚類挖掘結(jié)果的可視化
　　聚類挖掘的結(jié)果是多維的，由于笛卡兒坐標(biāo)系最多只有三個(gè)坐標(biāo)，所以不能用通常的方法作圖。而且這

談聚類挖掘在電子商務(wù)中的應(yīng)用

【談聚類挖掘在電子商務(wù)中的應(yīng)用】相關(guān)文章：

談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用03-21

Ｗｅｂ數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21

數(shù)據(jù)挖掘在旅游電子商務(wù)中應(yīng)用論文11-28

用戶訪問模式挖掘及在電子商務(wù)中的應(yīng)用03-22

數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用03-28

Ｗｅｂ數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究03-07

談數(shù)據(jù)挖掘在中醫(yī)學(xué)術(shù)流派研究中的應(yīng)用03-19

Ｗｅｂ結(jié)構(gòu)挖掘在電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化中的應(yīng)用03-21

數(shù)據(jù)挖掘在ＣＲＭ中的應(yīng)用分析03-22

国产激情久久久久影院小草_国产91高跟丝袜_99精品视频99_三级真人片在线观看

談聚類挖掘在電子商務(wù)中的應(yīng)用