- 相關推薦
用戶訪問模式挖掘及在電子商務中的應用
摘要:當今電子商務網(wǎng)站日益增多,網(wǎng)站所提供的功能和服務也越來越豐富,然而也存在不足。比如,提供的服務或信息分布不公道,未能充分考慮到用戶的需求;信息的訪問路徑未能考慮到信息的重要性和普遍關注性等等。本文研究將集中在基于圖結構的用戶訪問模式挖掘及其在電子商務中的應用上,通過對基于Web拓撲結構(圖結構)挖掘用戶訪問模式的數(shù)據(jù)挖掘,可對已存在的Web站點的結構及站點內的頁面進行調整和改善,方便地向瀏覽模式相似的用戶組推薦其感愛好的主題相似的頁面,使各類信息和服務以更有效的方式提供給用戶。關鍵詞:數(shù)據(jù)挖掘 Web日志挖掘 用戶訪問模式 Web拓撲結構
一、引言
近幾年因特網(wǎng)已經(jīng)成為一個巨大的、分布廣泛的和全球性的信息服務中心,逐漸滲透到人們的日常工作、生活及其它領域,它為用戶提供了各種信息。然而,用戶面對一堆雜亂無章的信息往往花費了大量的精力卻無法找到理想的結果。如何有效得分析用戶的需求,幫助用戶從因特網(wǎng)的信息海洋中發(fā)現(xiàn)他們感愛好的信息和資源,已經(jīng)成為一項迫切而重要的課題。解決這些題目的一個途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術與Web結合起來,進行Web數(shù)據(jù)挖掘。其中的Web日志挖掘可以把握用戶在瀏覽站點時的行為,并且將挖掘出的用戶訪問模式應用于網(wǎng)站上,在改善Web站點的結構以及頁面間的超鏈接結構,進步站點的服務質量等方面有重要的意義。
二、Web數(shù)據(jù)挖掘概述
(一)Web數(shù)據(jù)挖掘的定義及分類
Web數(shù)據(jù)挖掘我們這里采用一個更一般的定義:Web數(shù)據(jù)挖掘是指從與WWW相關的資源和行為中抽取感愛好的、有用的模式和隱含信息。
Web信息的多樣性決定了Web挖掘任務的多樣性,Web數(shù)據(jù)挖掘總的來說分為內容挖掘、結構挖掘和日志挖掘三類,如圖l所示:
(二)Web日志挖掘
Web日志挖掘也稱Web使用挖掘,是指從Web使用數(shù)據(jù)中抽取用戶訪問模式的過程。
一般Web日志挖掘的過程分為以下三步:
1.數(shù)據(jù)預備:對Web日志內容進行預處理,刪除無用數(shù)據(jù),識別用戶會話,完善訪問路徑。
2.模式識別:采用相應的數(shù)據(jù)挖掘算法,對預處理之后的數(shù)據(jù)進行挖掘,天生模式。
3.模式分析:排除模式識別中沒有價值的規(guī)則或模式,將有價值的模式提取出來。
三、基于圖結構的Web日志挖掘
(一)數(shù)據(jù)預備
1.數(shù)據(jù)源
目前的Web日志挖掘的數(shù)據(jù)源主要是Web服務器日志文件,它記錄了用戶訪問站點的數(shù)據(jù),每當站點上的頁面被訪問一次,Web服務器就在日志中增加一條相應的記錄。服務器上的日志不僅具體記錄了站點訪問者的瀏覽行為,而且匯集了訪問同一站點的多個訪問者的行為。
2.數(shù)據(jù)預處理
在Web日志挖掘中,主要分析的數(shù)據(jù)源是服務器日志,但是由于服務器日志記錄的數(shù)據(jù)并不完整,直接在其上進行挖掘非常困難。因此要對日志數(shù)據(jù)進行預處理主要包括以下步驟:
數(shù)據(jù)轉換:將原始日志文件導進數(shù)據(jù)庫中。
數(shù)據(jù)清理:刪除與日志分析目的無關的記錄。
用戶識別:將用戶和請求的頁面相關聯(lián)。
會話識別:將用戶在一段時間內的請求頁面分解成能反映實際瀏覽習慣的用戶會話。
路徑補充:將本地或者代理服務器中緩存而沒有被日志記錄的請求頁面增加到會話中。
(二)基于圖結構的用戶訪問模式挖掘
本文中的算法在現(xiàn)有的挖掘關聯(lián)規(guī)則算法的基礎上上進行延伸,并且在支持度計算,候選路徑的產生和剪除階段時考慮網(wǎng)站的圖結構。這樣,在候選集的天生和剪除過程中減少了候選集的數(shù)目,可進步發(fā)現(xiàn)模式的精確性和效率,并且避免了“交易變質”的題目。首先,分析站點結構,并給出“圖”的相關定義和定理。其次,對現(xiàn)有的Web日志挖掘方法進行簡單的先容和分析。接著,給出基于圖結構的用戶訪問模式挖掘算法。
1.站點結構的分析
每個Web網(wǎng)站并不是平面結構,而是有自己的特定結構。我們可將Web結構看作是一個多層的模型,每個層面包含很多頁面,這些頁面上有很多文本、圖片、音樂等頁面元素組成,它們可以鏈接本層面或其他層面的頁面元素。
Web可以用一個有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超鏈接集合。頁面抽象為圖中的頂點,而頁面之間的超鏈接抽象為圖中的有向邊。頂點v的進邊表示對v的引用,出邊表示v引用了其它的頁面。 所以Web頁面之間的超鏈接揭示了Web結構。通過對Web結構的分析可對Web數(shù)據(jù)挖掘有很大的幫助,如圖4,某站點拓撲結構示例圖。
2.基于圖結構的用戶訪問模式挖掘算法
Web用戶訪問模式的挖掘過程可描述為:把用戶會話序列看成是對圖的遍歷,結合數(shù)據(jù)庫和Web圖結構確定訪問的最大向前路徑。從中找出支持度大于閾值的所有子路徑即頻繁遍歷路徑,最后確定最大頻繁遍歷路徑。基于圖結構的用戶訪問模式的挖掘和現(xiàn)有方法最大的不同是,訪問模式也被以為是圖遍歷,而不是二叉樹訪問順序,即用戶會話序列是圖中的路徑。
(1)天生最大向前路徑
Web用戶訪問模式的挖掘過程的第一步是把用戶會話序列看成是對圖的遍歷,結合數(shù)據(jù)庫和Web圖結構確定訪問的最大向前路徑。所謂最大向前路徑(MFP)是指從起始頁開始到回溯發(fā)生前,用戶連續(xù)訪問的最大頁面序列。
假設
、僖来巫x取頁面xi(1≤i≤m)。
、谌鬤i不存在于{y1,…,y-1}中,即xi是沒有訪問過的頁面,則將xi作為yj加進當前可能的MFP中,f1ag標記為前進,轉(1)。
、鄯駝t若xi=yk(1≤k
假如flag標明為回退,刪除{yk i,…,yj-1}后轉(1)。
、墚斕幚淼接脩魰捴械淖詈笠豁摃r,假如f1ag標志仍-標明向前,則此時的{y1,…,yj 1}是該會話中的最后一個MFP。 此算法的形式化描述如下:
for aU Sn∈S //依次處理繪畫文件中的每個會話Sn1
y1=x1;j=2;i=2 f1ag=YES; ////初始化頁面序列,將遍歷方向設置為前進;
while(i≤m)//循環(huán)處理用戶會話Sn中每個頁面;
{
if(xi==yk)for some 1≤k
頻繁遍歷路徑是指MFP中滿足一定支持度的子路徑序列(不是連續(xù)頁面序列)。頻繁遍歷路徑的確定能用像Aprior算法中的逐層搜索算法實現(xiàn)。在算法的每步中,都要掃描數(shù)據(jù)庫,并計算所有的候選集的支持度。每步中的所有候選集都有相同的長度。在每個過程的結束,天生候選集Ck,然后計算Ck中每個候選項的支持度并剪除小于支持度閾值的候選項,以減少下一循環(huán)的掃描時間,由此頻繁遍歷路徑集合Lk被確定,并用于在下個步中候選集的計算。算法的一般結構如下。支持度的最小值記為minSupport,Ck表示所有長度為k的候選集,Lk表示所有長度為k的頻繁遍歷路徑的集合,D表示數(shù)據(jù)庫,G表示圖。
算法4-逐層搜索確定圖G中的頻繁遍歷路徑 盡管逐層搜索算法的基本結構相似于Apriori,但是它的組成部分(i)候選集支持度計算(ii)產生下一階段的候選集,明顯不同于Apriori,由于,該算法中的候選集必須是圖中的路徑。該算法基于定理4執(zhí)行Apriori剪除。對于支持度計算(第6,7步),基于子路徑的數(shù)目。
在圖4的例子中,
四、Web日志挖掘的應用
從Web使用數(shù)據(jù)中挖掘出的訪問模式可以應用到廣闊的領域,以下僅先容在電子商務中的應用。
(一)個性化服務
根據(jù)網(wǎng)站用戶的訪問情況,為用戶提供個性化信息服務,這是很多互聯(lián)網(wǎng)應用,尤其是互聯(lián)網(wǎng)信息服務或電子商務(網(wǎng)站)所追求的目標。根據(jù)用戶的訪問行為和檔案向使用者進行動態(tài)的推薦,對很多應用都有很大的吸引力。Web日志挖掘是一個能夠出色地完成這個目標的方式。
例如141:SiteHelper可以通過分析每個用戶的網(wǎng)頁訪問情況,了解用戶的愛好,并從用戶瀏覽時間較長的網(wǎng)頁中抽取出相應關鍵字,匯總后給用戶,獲得反饋后,再向用戶推薦網(wǎng)站中其他類似或相關網(wǎng)頁。又如:WebWatcher“跟蹤”用戶瀏覽網(wǎng)頁過程,識別用戶可能感愛好的鏈接,WebWatcher根據(jù)用戶本人和其他類似用戶的瀏覽情況,對每個新網(wǎng)頁進行評估,以幫助用戶能夠及時地瀏覽自己感愛好的網(wǎng)頁。
(二)貿易智能
有關用戶訪問網(wǎng)站的行為模式,對于電子商務中的市場職員來說是非常重要的,通過定義Web使用日志的超維數(shù)據(jù)立方,將Web使用數(shù)據(jù)與電子商務應用數(shù)占有機地結合在一起。這樣就可以利用數(shù)據(jù)挖掘方法與技術來為客戶關系治理中的四個重要階段(吸引顧客,保存顧客,交叉銷售,顧客離開)提供決策支持。例如:WebLogMiner可以將Web日志數(shù)據(jù)轉換為超維數(shù)據(jù)立方的形式以便能夠進行OLAP分析處理和數(shù)據(jù)挖掘工作。在WebLogMiner系統(tǒng)中還使用了關聯(lián)規(guī)則,分類和序列模式分析等數(shù)據(jù)挖掘方法,得到了電子商務交易行為序列、特征和交易預期的分析。
五、小結
本文運用一種基于Web拓撲結構(圖結構)挖掘用戶訪問模式的方法,區(qū)別于常用的基于樹形結構的Web路徑分析技術,進步了發(fā)現(xiàn)模式的精確性和效率。我們給出一個像Aprior那樣的逐層搜索算法,得到用戶的瀏覽模式。
【用戶訪問模式挖掘及在電子商務中的應用】相關文章:
Web數(shù)據(jù)挖掘在電子商務中的應用.03-21
電子商務在圖書銷售模式中的應用03-22
數(shù)據(jù)挖掘在旅游電子商務中應用論文11-28
談聚類挖掘在電子商務中的應用03-18
談數(shù)據(jù)挖掘技術在電子商務中的應用03-21
數(shù)據(jù)挖掘技術在電子商務網(wǎng)站中的應用03-28