- 相關推薦
基于WEB文本挖掘的統(tǒng)計分析VB+ACCESS
畢業(yè)論文
基于WEB文本挖掘的統(tǒng)計分析
---用戶興趣建模與中文網(wǎng)頁自動分類
摘 要 本文介紹了運用Web文本挖掘技術,在Windows平臺上實現(xiàn)用戶興趣建模和智能網(wǎng)頁推薦系統(tǒng)的方法和過程。首先簡要介紹了目前國內(nèi)外的研究動態(tài)和水平,然后介紹了興趣模型的相關知識,主要包括:web文本挖掘的分類,web文本挖掘的靜態(tài)和動態(tài)統(tǒng)計分析,興趣模型的發(fā)現(xiàn)與建立,用戶興趣模型的獲得與實現(xiàn),中文分詞技術等內(nèi)容。在簡單介紹現(xiàn)有算法的基礎上,經(jīng)過實踐調(diào)查統(tǒng)計,根據(jù)課題的需要和實際情況,提出1種相對簡單的用戶興趣模型的建立和實現(xiàn)的方法。并用VB 6.0 和Access 2003實現(xiàn)了相關功能。
關鍵詞: Web文本挖掘; 網(wǎng)志分析;統(tǒng)計分析;用戶興趣模型; 中文分詞
Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify
Abstract In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords:Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split
目 錄
1 前 言 1
1.1 課題背景 1
1.2 國內(nèi)外研究動態(tài)和水平 1
1.3 本文的主要工作 2
1.4 課題研究的意義 3
1.5 論文的大致結(jié)構 3
2 WEB文本挖掘 4
2.1 數(shù)據(jù)挖掘 4
2.1.1 WEB挖掘的概述及分類 4
2.1.2 Web 挖掘的任務 5
2.1.3 Web數(shù)據(jù)挖掘幾個步驟 6
2.1.4 Web數(shù)據(jù)挖掘的分類 7
2.2 WEB 文本挖掘 9
3 興趣模型的發(fā)現(xiàn)與建立 11
3.1 現(xiàn)有算法介紹 11
3.1.1 用戶主動提供 11
3.1.2 相關反饋 12
3.1.3 現(xiàn)有興趣發(fā)現(xiàn)算法的缺陷 13
3.2 靜態(tài)和動態(tài)相結(jié)合的方法 13
3.2.1 Web訪問動機的靜態(tài)分析 14
3.2.2 Web訪問動機的動態(tài)分析 17
3.3 結(jié)論與模型的建立 17
3.3.1 根據(jù)隱式反饋[6]建立和更新用戶興趣模型 17
4 用戶興趣模型獲得與實現(xiàn) 22
4.1 COOKIES 22
4.1.1 Cookies的概述及屬性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威脅 24
4.1.4 Cookies的作用 25
4.2 收藏夾分析 26
4.1.1 獲取 “收藏夾”文件 26
4.1.2 收藏夾的目錄結(jié)構 28
4.1.3 如何分析網(wǎng)志中的頁面 28
4.3中文分詞技術介紹 30
4.3.1 中文分詞和對興趣收集的重要意義 30
4.3.2 CSW 5.0 中分詞組件簡介 32
4.3.3本系統(tǒng)調(diào)用CSW5. DLL 示例 33
4.4 VB中的鉤子 34
4.4.1 鉤子的概述和分類 34
4.4.2 VB中鉤子的實現(xiàn) 36
5 中文網(wǎng)頁自動分類技術 38
5.1 文檔自動分類算法的類型 38
5.2 實現(xiàn)中文網(wǎng)頁自動分類的1般過程 39
5.3 影響自動分類的關鍵因素 40
5.3.1 分類體系 40
5.3.2 特征提取 41
5.3.3 分類算法介紹 41
6 系統(tǒng)設計與實現(xiàn) 42
6.1系統(tǒng)可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4進行可行性研究的方法 42
6.1.5設備 42
6.1.6 局限性 43
6.1.7 技術條件方面的可行性 43
6.1.8 社會因素方面的可行性 43
6.1.9 結(jié)論 43
6.2需求分析 43
6.2.1任務概述 43
6.2.2需求規(guī)定 44
6.2.3 數(shù)據(jù)管理 45
6.2.4 故障處理要求 45
6.2.5 運行環(huán)境規(guī)定 45
6.3總體設計 45
6.3.1 系統(tǒng)實現(xiàn)方案 45
6.3.2 功能模塊分解 45
6.3.3 數(shù)據(jù)庫設計 46
6.4詳細設計 47
6.4.1 結(jié)構程序設計 47
6.4.2 人機界面設計 53
6.5系統(tǒng)實現(xiàn) 53
7 結(jié) 論 54
致 謝 55
參考文獻 56
附錄1 CSW 5.0分詞軟件DLL介紹 57
附錄2 漢語詞性對照表[北大標準/中科院標準] 61
附錄3 部分程序源代碼 63
1 前 言
1.1 課題背景
近年來,Internet的網(wǎng)絡和應用都在以驚人的速度在發(fā)展。根據(jù)中國互聯(lián)網(wǎng)絡信息中心2003年1月公布的中國互聯(lián)網(wǎng)絡發(fā)展狀況的統(tǒng)計數(shù)據(jù),在中國,上網(wǎng)計算機總數(shù)達到2083萬,上網(wǎng)用戶總數(shù)達到5910萬,WWW站點數(shù)約為371600個。而就全世界而言,上網(wǎng)用戶數(shù)達到數(shù)億。同時,各種各樣的網(wǎng)絡應用早己走進各行各業(yè),尤其是遠程教育、電子商務、搜索引擎等等。但是由于 Internet是1個開放、分布的信息空間,它本身所固有的 3個特點己經(jīng)明顯地阻礙了人們充分地使用 Internet上的信息資源:[1](1) Internet上可利用的信息是無組織的,多種結(jié)構形式的,并且分布在全世界的各個站點上;(2)數(shù)據(jù)和服務的類型以及數(shù)量每天都在大量增加,因而信息可利用性和可靠性也在不斷地變化;(3)由于信息源的動態(tài)性以及潛在的有用信息的更新和保存問題,信息常常是模糊的:有時甚至是錯誤的。由于上述原因,在 Internet上進行信息檢索經(jīng)常會出現(xiàn)“信息過載”,即網(wǎng)上的信息是海量和無組織的,易發(fā)生“資源迷向”,即用戶不知道如何更加有效地利用資源等問題。
人們迫切需要1些智能的和個性化的工Internet系統(tǒng),能學習和了解用戶的興趣愛好,成為用戶的助手或秘書,能幫助用戶從浩如煙海的工Internet信息中快速而準確地搜索出他們感興趣的內(nèi)容:
能為用戶提供主動的、最新的信息服務和推薦;能幫助用戶實現(xiàn)個性化的遠程學習等。而這些系統(tǒng)的基礎都離不開1個 “個性化的用戶興趣模型”。
電子商務(E-Business)發(fā)展到現(xiàn)在,它提供的高效和安全的服務,讓人們體會到了Internet應用的神奇。但是,電子商務服務提供商和用戶同時對它的提出了新的要求:如何才能象現(xiàn)實生活中的商家和客戶交流1樣,商家為客戶推薦適合其興趣愛好的商品和服務,這在現(xiàn)實生活中,是靠商家與客戶的多次不同形式的交流達到的,然而,通過什么的途徑,能夠在Internet上,在商家與客戶沒有見面的環(huán)境下達到這1點呢。根據(jù)用戶顯式反饋的信息,進行綜合整理,也許是1條途徑,但是這里面包含了太多的主觀和不確定因素。隱式反饋成了人們關注的焦點,通過對用戶靜態(tài)的動態(tài)的興趣體現(xiàn),通過統(tǒng)計分析得到用戶興趣,從而為用戶量身定制web服務和page推薦,當然,這不可避免地涉及到個人隱私問題。本課題就是在這樣的背景下提出來的。
【基于WEB文本挖掘的統(tǒng)計分析VB+ACCESS】相關文章:
基于WEB的在線考試系統(tǒng)03-09
基于Web服務的集成研究03-08
基于Web技術的網(wǎng)絡考試系統(tǒng)03-18
基于Web服務的短信網(wǎng)關設計03-26
基于WEB的網(wǎng)絡考試系統(tǒng)ASP+SQL03-08
基于粗糙集的文本分類研究03-03