- 相關(guān)推薦
互操作聯(lián)邦數(shù)字圖書館研究
【內(nèi)容提要】未來的圖書館將是聯(lián)邦數(shù)字圖書館,其目標(biāo)是向用戶提供一個(gè)將異構(gòu)、分布信息源無縫集成的視圖,實(shí)現(xiàn)對(duì)數(shù)字圖書館資源的透明訪問。文中首先介紹了研究數(shù)字圖書館互操作的必要性,在此基礎(chǔ)上重點(diǎn)分析討論了聯(lián)邦數(shù)字圖書館的實(shí)現(xiàn)方法,并對(duì)當(dāng)前具有代表性的互操作聯(lián)邦數(shù)字圖書館的研究進(jìn)行了綜述討論,最后簡單討論了目前建立互操作聯(lián)邦數(shù)字圖書館所面臨的挑戰(zhàn)及進(jìn)一步研究和解決的問題。【摘要題】專題探討……
1 研究數(shù)字圖書館互操作的必要性
隨著在線數(shù)字圖書館(DLs)的日益增多,人們發(fā)現(xiàn)必須訪問許多DLs才能找到所需要的資料。由于大多數(shù)DLs是基于數(shù)據(jù)庫驅(qū)動(dòng)的,現(xiàn)有流行的搜索引擎不能對(duì)其內(nèi)容建立索引。因此,對(duì)于那些需要跨越多個(gè)DLs查找資料的用戶來說,搜索引擎不能滿足這種需求。如何將廣泛分布的、異構(gòu)的DLs聯(lián)合起來向用戶提供統(tǒng)一的服務(wù),即實(shí)現(xiàn)DLs之間的互操作,成為DLs研究與開發(fā)所關(guān)注的中心問題。
所謂數(shù)字圖書館的互操作是指交換和共享DLs的文檔、查詢和服務(wù)的能力[1]。它要求來自技術(shù)(協(xié)議和格式等)、內(nèi)容(元數(shù)據(jù)及其語義等)和組織(DLs的基本訪問原則、支付方式和認(rèn)證等)三方面的合作。DLs的互操作可以出現(xiàn)在不同的抽象層次上,我們可以將其概括為兩類視圖[1]:縱向視圖(verticalview)和橫向視圖(horizontalview)。前者涉及法律、社會(huì)、文化和知識(shí)產(chǎn)權(quán)等方面的問題,后者涉及DLs的硬件和軟件即體系結(jié)構(gòu)方面的問題。
為什么要研究DLs的互操作?道理很簡單:目前很少有DLs既提供豐富的館藏資源,又提供有效的服務(wù)。盡管目前一些DLs擁有大量的館藏資源,而另外一些DLs卻提供許多的服務(wù),但在這兩種情況下,用戶都不太容易找到其所需要的信息資源。只有在這些DLs之間實(shí)現(xiàn)互操作,才能共享DLs的資源和服務(wù)。因此,研究DLs的互操作是十分必要的。
2 聯(lián)邦數(shù)字圖書館的實(shí)現(xiàn)方法
為了解決用戶使用DLs查找資料時(shí)同一查詢條件的重復(fù)提交問題,人們提出了聯(lián)邦數(shù)字圖書館的概念。所謂聯(lián)邦數(shù)字圖書館是指正式或非正式合作操縱DLs的一些組織,它們同意支持一組共同的服務(wù)和標(biāo)準(zhǔn),以便在聯(lián)盟成員之間共享DLs的資源,實(shí)現(xiàn)互操作。聯(lián)邦數(shù)字圖書館允許跨越不同的DLs執(zhí)行搜索,并將每個(gè)DLs的查詢結(jié)果合并后返回給用戶,使用戶感到如同使用單個(gè)數(shù)字圖書館一樣。從聯(lián)邦的耦合度考慮,實(shí)現(xiàn)聯(lián)邦數(shù)字圖書館的方法可分為以下三種:NCSTRL方法、Harvesting方法和搜集(Gathering)方法。
2.1 NCSTRL方法
網(wǎng)上計(jì)算機(jī)科學(xué)技術(shù)報(bào)告圖書館(NCSTRL)是一個(gè)擁有100多個(gè)機(jī)構(gòu)加盟的聯(lián)邦數(shù)字圖書館[2],它利用Dienst作為DLs的協(xié)議和體系結(jié)構(gòu)。凡是要求加入NCSTRL的機(jī)構(gòu)需要在本地安裝Dienst服務(wù)器,并按照統(tǒng)一規(guī)定的數(shù)據(jù)格式建立其館藏資源。NCSTRL借助于分布式搜索技術(shù)在聯(lián)盟DLs之間實(shí)現(xiàn)資源共享,它將用戶的查詢送往參與聯(lián)邦的所有DLs上分別執(zhí)行,收集返回的結(jié)果,綜合整理后返回給用戶(圖1)。
附圖
圖1 NCSTRL方法
NCSTRL方法要求所有參與聯(lián)邦的DLs使用相同的協(xié)議或軟件系統(tǒng),因此能夠提供全面的互操作。但緊密的聯(lián)邦必將加重聯(lián)盟成員的負(fù)擔(dān),它們不得不就技術(shù)標(biāo)準(zhǔn)和策略(如知識(shí)產(chǎn)權(quán)準(zhǔn)則、安全和隱私等)達(dá)成一致。從網(wǎng)絡(luò)和搜索系統(tǒng)方面的限制考慮,NCSTRL是昂貴的運(yùn)行模式,因?yàn)橐竺總(gè)聯(lián)盟成員的DLs必須支持復(fù)雜的查詢語言和對(duì)查詢的快速實(shí)時(shí)響應(yīng)。另外,從查詢的頻率、元數(shù)據(jù)的質(zhì)量以及網(wǎng)絡(luò)資源的可用性等方面綜合考慮,這種實(shí)現(xiàn)聯(lián)邦的方法對(duì)聯(lián)盟成員加負(fù)較重。因此,只有那些需求強(qiáng)烈的DLs會(huì)采用這種代價(jià)較高的模式。
2.2 Harvesting方法
一臺(tái)計(jì)算機(jī)能夠自動(dòng)地從其他計(jì)算機(jī)中收集并提取元數(shù)據(jù)的方法通常稱作Harvesting[3]。利用Harvesting方法建立聯(lián)邦數(shù)字圖書館的基本思想是:從每個(gè)DLs收集并提取元數(shù)據(jù),經(jīng)過處理、合并后集中保存在一個(gè)中心DL中,然后對(duì)保存在中心DL本地的元數(shù)據(jù)執(zhí)行搜索(圖2)。顯然,這種方法需要在中心DL維護(hù)一個(gè)所有DLs館藏元數(shù)據(jù)索引信息的副本,以便提供基于館藏元數(shù)據(jù)內(nèi)容的查詢路由服務(wù)。
附圖
圖2 Harvesting方法
Harvest系統(tǒng)[4]是這種方法的代表,它包括一組從各個(gè)DLs館藏中搜集信息并建立基于主題內(nèi)容索引的集成工具。Harvest體系結(jié)構(gòu)主要包括兩部分:搜集者(gatherers)和代理(brokers)。每個(gè)搜集者從DLs館藏中搜集并提取索引信息。代理程序從一個(gè)或多個(gè)搜集者或其他代理檢索索引信息,并按增量方式對(duì)其進(jìn)行更新。代理程序能夠?yàn)槎鄠(gè)館藏建立集成索引,并提供一個(gè)查詢界面。
由于Harvesting方法采用集中處理方式,所以能夠保證有較好的查詢響應(yīng)時(shí)間,但各DLs館藏元數(shù)據(jù)內(nèi)容的變化不能及時(shí)得到反映。另外,Harvesting方法不要求嚴(yán)格遵守一組完整的技術(shù)協(xié)定,只要求做少許支持基本共享服務(wù)(如數(shù)據(jù)訪問)的工作。同NCSTRL方法相比,Harvesting方法提供的互操作性相應(yīng)的要差一些,但對(duì)聯(lián)盟成員的要求卻很少。因此,許多組織可能會(huì)加入這種松散的DLs聯(lián)邦。
2.3 搜集(Gathering)方法
對(duì)于那些不能正式加盟的DLs組織,仍有可能通過搜集(Gathering)DLs可公開訪問信息的途徑獲得一定程度的互操作。這種聯(lián)邦方法通常提供統(tǒng)一的用戶界面,用戶輸入查詢請(qǐng)求,系統(tǒng)執(zhí)行分布式搜索,并將合并后的查詢結(jié)果返回給用戶。元數(shù)據(jù)蜘蛛(MetaCrawler)[5]是搜集方法的代表,它是由美國華盛頓大學(xué)實(shí)現(xiàn)的并行Web搜索服務(wù)。MetaCrawler提供一個(gè)智能接口界面,它能將用戶的查詢并行地送往多個(gè)搜索服務(wù)(如Lycos、Altavista和Yahoo等),并對(duì)返回的結(jié)果進(jìn)行整理,篩除其中重復(fù)的內(nèi)容,然后返回給用戶。MetaCrawler體系結(jié)構(gòu)具有許多優(yōu)點(diǎn),它在傳統(tǒng)的搜索服務(wù)之上提供一個(gè)抽象層,使其在Web增長和變化時(shí)具有較好的適應(yīng)性、可伸縮性和便攜性。
利用搜集方法建立聯(lián)邦數(shù)字圖書館無須任何DLs直接參與合作,但所提供服務(wù)的質(zhì)量比參與合作情況下的要差。同前面介紹的兩種方法相比,搜集方法所提供的互操作性最差。目前許多關(guān)于Web的研究可視為在這個(gè)層次上添加功能,這將會(huì)提供更有效的互操作性。盡管期望整個(gè)Web表現(xiàn)出豐富的語義不太現(xiàn)實(shí),但是人們還是期望著通過搜集方法提供服務(wù)的水平能夠逐步地得到改善。
上述三種聯(lián)邦方法中,NCSTRL方法通過使用相同的協(xié)議或軟件系統(tǒng)來消除DLs之間的異構(gòu)問題,因此可以實(shí)現(xiàn)全面的互操作。而對(duì)現(xiàn)有的DLs來說,Harvesting方法是比較現(xiàn)實(shí)的建立聯(lián)邦數(shù)字圖書
【互操作聯(lián)邦數(shù)字圖書館研究】相關(guān)文章:
基于PDCA的數(shù)字圖書館質(zhì)量管理研究03-18
服務(wù)品質(zhì)與高校數(shù)字圖書館網(wǎng)站建設(shè)研究03-21
TD—LTE與TD—SCDMA雙網(wǎng)互操作12-19
淺談數(shù)字圖書館03-02
中國高校數(shù)字圖書館二十年發(fā)展研究03-21