面向電子商務(wù)的Web日志挖掘系統(tǒng)

時(shí)間：2024-09-27 08:36:50 Web Services 我要投稿

相關(guān)推薦

　　電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過(guò)國(guó)際互聯(lián)網(wǎng)，采用數(shù)字化方式進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)活動(dòng)。目前，電子商務(wù)正在企業(yè)和商貿(mào)領(lǐng)域占據(jù)著越來(lái)越多的市場(chǎng)份額，網(wǎng)絡(luò)信息挖掘主要用于對(duì)商品的市場(chǎng)定位和消費(fèi)分析，以輔助制定市場(chǎng)策略，分析購(gòu)物模式，預(yù)測(cè)銷售行情改進(jìn)站點(diǎn)設(shè)計(jì)和提高站點(diǎn)效率。向特定的客戶推薦有關(guān)的商品。網(wǎng)絡(luò)信息挖掘可以提供不同用戶的特定信息，有的放矢地傳播網(wǎng)絡(luò)廣告。利用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)建立客戶關(guān)系管理系統(tǒng)，可以極大地提升企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

面向電子商務(wù)的Web日志挖掘系統(tǒng)

　　一、Web挖掘模式的應(yīng)用

　　（一）發(fā)現(xiàn)潛在客戶。對(duì)一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō)，了解、關(guān)注在冊(cè)客戶群體非常重要，但從眾多的訪問(wèn)者中發(fā)現(xiàn)潛在客戶群體也同樣非常關(guān)鍵。如果發(fā)現(xiàn)某些客戶為潛在客戶群體,就可以對(duì)這類客戶實(shí)施一定的策略，使他們盡快成為在冊(cè)客戶群體。對(duì)一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō)，也許就意味著訂單數(shù)的增多、效益的增加。通過(guò)利用WEB挖掘的分類技術(shù)先對(duì)歷史數(shù)據(jù)進(jìn)行挖掘，可以有效的發(fā)現(xiàn)潛在客戶。

　�。ǘ┭娱L(zhǎng)客戶的駐留時(shí)間。對(duì)客戶來(lái)說(shuō)，傳統(tǒng)客戶與銷售商之間的空間距離在電子商務(wù)中已經(jīng)不存在了，Internet上每一個(gè)銷售商對(duì)于客戶來(lái)說(shuō)都是一樣的，那么如何使客戶在自己的銷售站點(diǎn)上駐留更長(zhǎng)的時(shí)間，這對(duì)銷售商來(lái)說(shuō)將是一個(gè)挑戰(zhàn)。為了使客戶在自己的網(wǎng)站上駐留更長(zhǎng)的時(shí)間，就應(yīng)該了解客戶的瀏覽行為，知道客戶的興趣及需求所在，動(dòng)態(tài)地調(diào)整Web頁(yè)面，以滿足客戶的需要。通過(guò)運(yùn)用數(shù)據(jù)挖掘中的序列模式發(fā)現(xiàn)技術(shù)對(duì)客戶訪問(wèn)信息的挖掘，就能知道客戶的瀏覽行為，從而了解客戶的興趣及需求。

　�。ㄈ└倪M(jìn)站點(diǎn)設(shè)計(jì)。站點(diǎn)上頁(yè)面內(nèi)容的安排就如超級(jí)市場(chǎng)中物品在貨架上的擺設(shè)一樣，把具有一定支持度和信任度的相關(guān)聯(lián)物品擺放在一起有助于銷售，利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以針對(duì)客戶動(dòng)態(tài)調(diào)整站點(diǎn)的結(jié)構(gòu)，使客戶訪問(wèn)的有關(guān)聯(lián)的文件間的鏈接能夠比較直接，讓客戶更容易訪問(wèn)到想訪問(wèn)的頁(yè)面。

　�。ㄋ模┽槍�(duì)不同客戶提供個(gè)性化產(chǎn)品。商家可以對(duì)客戶登記注冊(cè)記錄中和Web日志進(jìn)行挖掘，從而獲知訪問(wèn)者的個(gè)人愛(ài)好，更加充分地了解客戶地需要，根據(jù)各個(gè)細(xì)分市場(chǎng)，甚至是每一個(gè)顧客的獨(dú)特需求提供個(gè)性化產(chǎn)品，有利于提高客戶的滿意度。

　　綜上所說(shuō)，Web挖掘技術(shù)推動(dòng)了個(gè)性化推薦，使站點(diǎn)瀏覽者變?yōu)橘?gòu)買者，增加交叉銷售和提升銷售，每一次購(gòu)買都增加客戶的忠誠(chéng)度。

　　二、面向電子商務(wù)的Web挖掘應(yīng)用系統(tǒng)模型

　　當(dāng)用戶訪問(wèn)Web服務(wù)器時(shí)，Web服務(wù)器會(huì)自動(dòng)建立訪問(wèn)日志信息。隨著WWW技術(shù)的快速發(fā)展和時(shí)間的積累，Web服務(wù)器中Web日志文件將越來(lái)越大，基于Web的電子商務(wù)服務(wù)器將保存大量的Web訪問(wèn)日志記錄。如何對(duì)這些大量的Web日志記錄進(jìn)行自動(dòng)分析清理存儲(chǔ)并從中發(fā)現(xiàn)有用的、重要的知識(shí)，包括模式、規(guī)則和可視化結(jié)構(gòu)等是目前Web日志挖掘的主要任務(wù)。

　　面向電子商務(wù)的Web挖掘系統(tǒng)模型包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、模式發(fā)現(xiàn)、模式分析利用及客戶6個(gè)層次，見(jiàn)圖1。

　　數(shù)據(jù)采集層所采集的數(shù)據(jù)對(duì)象為Web服務(wù)器日志、客戶登記信息和交易數(shù)據(jù)庫(kù)等。Web服務(wù)器日志是客戶訪問(wèn)所產(chǎn)生的服務(wù)器日志數(shù)據(jù)�？蛻舻怯浶畔⒈仨毢驮L問(wèn)日志集成，以提高數(shù)據(jù)挖掘的準(zhǔn)確度。交易數(shù)據(jù)庫(kù)存儲(chǔ)用戶在商務(wù)網(wǎng)站上購(gòu)買商品的信息，其內(nèi)容隨數(shù)據(jù)庫(kù)結(jié)構(gòu)的不同而有所不同，一般包括：用戶名、時(shí)間、商品ID、采購(gòu)數(shù)量及價(jià)格等。

　　數(shù)據(jù)處理層實(shí)現(xiàn)對(duì)數(shù)據(jù)采集層所采集的源數(shù)據(jù)進(jìn)行處理，包括日志文件的處理和數(shù)據(jù)倉(cāng)庫(kù)的建立。日志文件處理得好壞直接影響挖掘算法產(chǎn)生的結(jié)果，其處理過(guò)程是保證Web挖掘質(zhì)量的關(guān)鍵。經(jīng)過(guò)處理后的數(shù)據(jù)由數(shù)據(jù)存儲(chǔ)層進(jìn)行保存和管理。

　　模式發(fā)現(xiàn)層次包括：路徑分析、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘以及聚類和分類分析。

　　模式分析利用層由兩部分組成：個(gè)性化網(wǎng)站及商業(yè)智能。這也代表了Web挖掘在電子商務(wù)中的兩大應(yīng)用方向。數(shù)據(jù)挖掘的結(jié)果可以幫助他們了解客戶，調(diào)整營(yíng)銷策略，改進(jìn)促銷手段，從而達(dá)到贏得競(jìng)爭(zhēng)的目的。

　　三、改進(jìn)站點(diǎn)設(shè)計(jì)的算法

　　對(duì)Web站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可從兩個(gè)方面來(lái)考慮：一是通過(guò)對(duì)Web日志的挖掘，發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的相關(guān)性，從而對(duì)密切聯(lián)系的頁(yè)面之間增加鏈接，方便用戶使用。二是通過(guò)對(duì)Web日志的挖掘，發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問(wèn)頻率高于實(shí)際位置的訪問(wèn)頻率，可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接，從而實(shí)現(xiàn)對(duì)Web站點(diǎn)的優(yōu)化。本文對(duì)第二點(diǎn)做深入探討。

　　通過(guò)該算法，我們可以找到用戶的返回點(diǎn)，這個(gè)位置可能是期望位置，也可能是目標(biāo)頁(yè)面，但可以通過(guò)確定時(shí)間閾值來(lái)解決這個(gè)問(wèn)題。當(dāng)用戶在返回點(diǎn)停留的時(shí)間較長(zhǎng)，超過(guò)指定的閾值，則認(rèn)為該頁(yè)面是目標(biāo)頁(yè)面，、否則可以認(rèn)為該頁(yè)面是期望位置找不到目標(biāo)頁(yè)面，就會(huì)在第二期望位置找，如果還找不到，會(huì)在第三期望位置找……。其中我們最關(guān)心的是第一期望位置，而且是那些被第一期望且發(fā)生頻率高于系統(tǒng)設(shè)計(jì)者指定值的所有頁(yè)面。因此，尋找第一期望位置便成了我們關(guān)注的焦點(diǎn)。

　�、诎l(fā)現(xiàn)第一期望位置算法。設(shè)Ei表示第一期望位置，算法如下：先以用戶的ID為主關(guān)鍵字，時(shí)間為次關(guān)鍵字，對(duì)Web日志文件建立索引，掃描Web日志索引文件，對(duì)每一個(gè)用戶ID，摘取出頁(yè)面序列。

　　For(I=1;I<=1;I )// n為Web日志中的記錄數(shù)

　　{統(tǒng)計(jì)EI中所有頁(yè)面支持?jǐn)?shù)；sort page by support;

　　if support(P)>=SI // SI為Web設(shè)計(jì)者指定的閾值；

　　則P為被第一期望且發(fā)生頻率高于系統(tǒng)設(shè)計(jì)者指定值的頁(yè)面；}

　　根據(jù)該算法的挖掘結(jié)果，我們可以及時(shí)調(diào)整Web站點(diǎn)鏈接結(jié)構(gòu)，在第一期望位置和實(shí)際位置之間增加導(dǎo)航鏈接，從而優(yōu)化Web站點(diǎn)的鏈接結(jié)構(gòu)。

　　（二）確定請(qǐng)求網(wǎng)頁(yè)的相關(guān)性

　　用戶對(duì)Web站點(diǎn)的訪問(wèn)存在某種有序關(guān)系，這種有序關(guān)系反映的是一種用戶的訪問(wèn)興趣，也就是說(shuō)群體用戶的訪問(wèn)興趣與他們的訪問(wèn)序列有很強(qiáng)的相關(guān)性,通過(guò)興趣關(guān)聯(lián)規(guī)則挖掘算法能夠挖掘出這種有序關(guān)系。具體算法如下:

　　設(shè)用戶訪問(wèn)的頁(yè)面集P={p1,p2,…,pn}，用weight表示由一個(gè)節(jié)點(diǎn)轉(zhuǎn)向另一個(gè)節(jié)點(diǎn)的可能性，則三元組(Pi,weight,Pj)表示有Pi轉(zhuǎn)向Pj的可能性，其中weight值定義為Pi到Pj的訪問(wèn)次數(shù)之和與所有Pi到其它節(jié)點(diǎn)訪問(wèn)次數(shù)之和的比值，0<WEIGHT<1。

　　●根據(jù)下式統(tǒng)計(jì)三元組

　　●if weight>St并為Sm個(gè)用戶所關(guān)注(其中St和Sm是根據(jù)實(shí)際情況確定的閾值)；

　　●則Pi與Pj之間存在相關(guān)性。

　　通過(guò)實(shí)驗(yàn)證明我們可以根據(jù)挖掘結(jié)果，在Pi和Pj之間直接建立鏈接，通過(guò)該方法可以改進(jìn)網(wǎng)站的設(shè)計(jì)和布局，方便用戶訪問(wèn)站點(diǎn)，為用戶提供方便、快捷的服務(wù)，實(shí)現(xiàn)為客戶的個(gè)性化服務(wù)。

　　四、結(jié)束語(yǔ)

　　通過(guò)Web數(shù)據(jù)挖掘，我們可以從數(shù)以億計(jì)的存儲(chǔ)大量多種多樣信息的Web頁(yè)面中提取出我們需要的有用的知識(shí)。通過(guò)Web數(shù)據(jù)挖掘，對(duì)總的用戶訪問(wèn)行為、頻度、內(nèi)容等的分析，可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí)，用以改進(jìn)我們的Web服務(wù)器設(shè)計(jì)，而更重要的是，通過(guò)對(duì)這些用戶特征的理解和分析，可以有助于開(kāi)展有針對(duì)性的電子商務(wù)活動(dòng)，給每個(gè)用戶個(gè)性化的界面，提供個(gè)性化的電子商務(wù)服務(wù)。

【面向電子商務(wù)的Web日志挖掘系統(tǒng)】相關(guān)文章：

Linux系統(tǒng)Web服務(wù)器性能測(cè)試01-23

基于web的辦公自動(dòng)化系統(tǒng)推薦03-20

基于Web的MES系統(tǒng)安全架構(gòu)設(shè)計(jì)及分析02-28

Web Workers加速移動(dòng)Web應(yīng)用03-30

挖掘機(jī)液壓系統(tǒng)溫升過(guò)高的原因及防治03-20

電子商務(wù)與ERP系統(tǒng)整合的重要性03-07

輪胎式液壓挖掘機(jī)的轉(zhuǎn)向操縱系統(tǒng)介紹01-16

web瀏覽創(chuàng)作效果精選03-29

Web 2.0技術(shù)的內(nèi)容03-30

国产激情久久久久影院小草_国产91高跟丝袜_99精品视频99_三级真人片在线观看

面向電子商務(wù)的Web日志挖掘系統(tǒng)