- 相關(guān)推薦
探析CBR在因特網(wǎng)教育資源檢索中的應(yīng)用
摘要:對(duì)因特網(wǎng)教育資源的檢索日益受到關(guān)注,而目前基于關(guān)鍵詞的檢索方法效率不高,特別是對(duì)多媒體資源的檢索顯得相形見絀,人們迫切需要一種對(duì)因特網(wǎng)教育資源,尤其是多媒體教育資源更為有效的檢索方法;趦(nèi)容的檢索CBR(Content-Based Retrieval)應(yīng)運(yùn)而生。它的出現(xiàn)將對(duì)提高因特網(wǎng)教育資源檢索的質(zhì)量和效率起到積極作用。關(guān)鍵詞:內(nèi)容;多媒體;檢索;因特網(wǎng);教育資源.
Absract Because the rapid development of the Internet has resulted in increasing amount of educational resource,especially in multimedia forms,the methods of retrieval based on keywords are not satisfying.People need more efficient methods of educational resource retrieval in the Internet . Content-Based Retrieval(CBR) is an effort to handle this "educational resource explosion" problem. This paper presents a survey of current methods of resource retrieval in the Internet,then introduces the application of CBR in educational resource retrieval in the Internet and its great value.
Key words:content;multimedia;retrieval;the Internet;educational resource.
一、目前因特網(wǎng)教育資源檢索的局限性
目前對(duì)因特網(wǎng)教育資源的檢索方法可分為三類:主題目錄(subject directory)、搜索引擎(search engine)、元搜索引擎(metasearch engine)。主題目錄由人工收集、編排,雖然檢索結(jié)果更人性化,但效率低、周期長(zhǎng),無法適應(yīng)因特網(wǎng)資源龐大、變化快的特點(diǎn)。搜索引擎又分為自動(dòng)搜索(auto-retrieval)和全文檢索(full text retrieval)。自動(dòng)搜索依靠蜘蛛(Spider)、爬蟲(Webcrawler)等搜索工具自動(dòng)完成,效率高、更新快,但Spider不能訪問Cookie、JavaScript或Java技術(shù)制作的網(wǎng)頁(yè),建立包容所有因特網(wǎng)資源的數(shù)據(jù)庫(kù)也不現(xiàn)實(shí),且搜索結(jié)果往往不切題。全文檢索以文本信息為檢索對(duì)象,建立全文數(shù)據(jù)庫(kù),可以高效檢索海量非結(jié)構(gòu)化數(shù)據(jù),但不能有效過濾不相關(guān)內(nèi)容。元搜索引擎讓用戶同時(shí)搜索若干數(shù)據(jù)庫(kù)和搜索引擎,相對(duì)于單一搜索引擎它能查找到更多的資源,但由于必須兼顧不同搜索引擎,采用的是簡(jiǎn)單直接的搜索策略,反而失去了每個(gè)搜索引擎自身的特色。總之,現(xiàn)有一般檢索方法均是基于關(guān)鍵詞的檢索,由于關(guān)鍵詞標(biāo)引工作量大,而標(biāo)引同用戶的檢索概念常常不一致,導(dǎo)致查準(zhǔn)率和查全率低。目前最好的搜索引擎其全球網(wǎng)頁(yè)覆蓋率還不到五成。雖然因特網(wǎng)這個(gè)世界最大的信息資源庫(kù)為我們提供了極為豐富的教育資源,但現(xiàn)有的檢索方法并沒有使我們能有效地加以利用,我們常常感?quot;生活在信息的海洋中,卻忍受著知識(shí)的饑渴。"
未來因特網(wǎng)的發(fā)展使這種檢索方法的局限性日益凸現(xiàn)。首先,因特網(wǎng)海量數(shù)據(jù)的產(chǎn)生。因特網(wǎng)每天新添150萬個(gè)文件,8個(gè)月增長(zhǎng)1倍,其網(wǎng)頁(yè)遍及全球300萬個(gè)服務(wù)器,總數(shù)將由1997年2月的3.2億猛增至2002年的80億。利用現(xiàn)有的檢索技術(shù)要在這以指數(shù)形式不斷增長(zhǎng)的資源數(shù)據(jù)庫(kù)中提取所需如同大海撈針。其次,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn)。因特網(wǎng)的資源可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)能用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號(hào)等。非結(jié)構(gòu)化數(shù)據(jù)則不能,如圖像、聲音、視頻等。這類數(shù)據(jù)的特征,如圖像中的顏色、紋理,視頻中的鏡頭、場(chǎng)景,聲音中的音調(diào)、音色等雖可賦予名字、文件格式、采樣率等屬性,但其中沒有可確認(rèn)的詞或可比較的實(shí)體,不能像文本那樣搜索其內(nèi)容,因此很難用現(xiàn)有基于關(guān)鍵詞的檢索方法檢索。當(dāng)然可以人工輸入其屬性和描述來彌補(bǔ),但隨著數(shù)據(jù)量的增大人工注釋的強(qiáng)度也將加大。而且,人對(duì)非結(jié)構(gòu)化數(shù)據(jù)的感知,如音樂的旋律很難付諸文字。第三,新一代高速因特網(wǎng)的出現(xiàn)對(duì)基于內(nèi)容的多媒體信息檢索提出了迫切要求。1996年美國(guó)啟動(dòng)的NGI(Next Generation Internet)計(jì)劃目標(biāo)是實(shí)現(xiàn)端到端的傳送速率比目前的Internet快成百至上千倍,可達(dá)到100Mbps至1Gbps,實(shí)現(xiàn)大量交互式多媒體的高速傳送,構(gòu)建可視化、合作型虛擬現(xiàn)實(shí)(VR)和3D虛擬環(huán)境。今年8月國(guó)家863計(jì)劃中被稱為寬帶互聯(lián)網(wǎng)"心臟"的核心路由器項(xiàng)目正式通過了國(guó)家科技部組織的驗(yàn)收,標(biāo)志著我國(guó)新一代高速互聯(lián)網(wǎng)"中國(guó)高速信息示范網(wǎng)"的攻堅(jiān)戰(zhàn)基本完成。這個(gè)高速信息實(shí)驗(yàn)網(wǎng)以IP技術(shù)為基礎(chǔ),將計(jì)算機(jī)、電信和電視網(wǎng)三網(wǎng)合一,將使以電路交換技術(shù)為基礎(chǔ)的傳統(tǒng)電信網(wǎng)逐漸退出歷史舞臺(tái)。總之,未來的因特網(wǎng)將是以人為中心,支持服務(wù)質(zhì)量控制(QoS),實(shí)現(xiàn)多用戶多媒體實(shí)時(shí)交互,這就要求在資源檢索方面,用基于內(nèi)容的多媒體檢索取代傳統(tǒng)基于關(guān)鍵字的檢索。二、基于內(nèi)容的檢索CBR
基于內(nèi)容的檢索CBR(Content-Based Retrieval)是根據(jù)媒體和媒體對(duì)象的內(nèi)容語義及上下文聯(lián)系進(jìn)行檢索。它具有如下特點(diǎn):(1)直接對(duì)圖像、視頻、音頻等媒體內(nèi)容進(jìn)行分析,抽取特征和語義建立索引,進(jìn)行檢索。(2) 放棄常規(guī)數(shù)據(jù)庫(kù)檢索中的精確匹配方法,而采用相似性匹配的方法逐步迭代求精獲得檢索結(jié)果。(3)能對(duì)大型多媒體數(shù)據(jù)庫(kù)進(jìn)行快速檢索。(4) 采用多種檢索手段,除提取多媒體內(nèi)容特征進(jìn)行檢索外,還提供了其它檢索手段,如通過提供樣本圖像進(jìn)行相似性檢索,或通過人機(jī)交互進(jìn)行瀏覽檢索。
完整的CBR系統(tǒng)一般由兩個(gè)子系統(tǒng)構(gòu)成,即數(shù)據(jù)庫(kù)生成子系統(tǒng)和檢索子系統(tǒng)。每個(gè)子系統(tǒng)由相應(yīng)的功能模塊和部件組成,包括:(1)對(duì)象標(biāo)識(shí)、(2)特征提取、(3)數(shù)據(jù)庫(kù)、(4)用戶檢索和瀏覽接口、(5)搜索引擎、(6)索引和過濾器。
對(duì)因特網(wǎng)多媒體資源的CBR檢索歷經(jīng)特征調(diào)整、重新匹配、逐步求精的循環(huán)過程:(1)最初用戶可用檢索語言形成一個(gè)初始化的檢索,系統(tǒng)提取該示例的特征或把檢索描述映射為具體的特征矢量。(2)將檢索特征與特征庫(kù)中特征按一定匹配算法進(jìn)行相似匹配。(3)按相似度大小,將滿足一定相似條件的候選結(jié)果排序后反饋給
【探析CBR在因特網(wǎng)教育資源檢索中的應(yīng)用】相關(guān)文章:
探析網(wǎng)絡(luò)資源在商務(wù)英語教學(xué)中的應(yīng)用03-18
探析知識(shí)管理在企業(yè)中的應(yīng)用03-21
探析膠原蛋白在造紙中的應(yīng)用03-18
知識(shí)管理在企業(yè)中的應(yīng)用探析03-27
探析賞識(shí)教育在高職英語口語教學(xué)中的應(yīng)用03-28
探析軟巖中掘進(jìn)支護(hù)的應(yīng)用03-20
探析代理記賬中商品軟件的應(yīng)用03-17