- 相關(guān)推薦
淺論我國(guó)年鑒全文數(shù)據(jù)庫(kù)的現(xiàn)狀和改進(jìn)策略
論文關(guān)鍵詞:年鑒全文數(shù)據(jù)庫(kù);數(shù)字化年鑒;中國(guó)年鑒資源全文數(shù)據(jù)庫(kù);中國(guó)年鑒全文數(shù)據(jù)庫(kù)
論文摘要:年鑒全文數(shù)據(jù)庫(kù)是新興的數(shù)字資源,是教學(xué)、科研、生產(chǎn)、乃至決策中不可或缺的工具。本文了目前我國(guó)兩個(gè)大規(guī)模年鑒全文數(shù)據(jù)庫(kù)的收錄情況、銷(xiāo)售策略、檢索性能、結(jié)果處理能力等現(xiàn)狀,認(rèn)為年鑒全文庫(kù)尚存在的信息時(shí)滯較長(zhǎng)、檢索性能不能很好體現(xiàn)年鑒特點(diǎn)、檢索結(jié)果后處理能力不強(qiáng)、個(gè)性化服務(wù)欠缺、信息整合層次單一等問(wèn)題,并提出了改進(jìn)策略。
1 序言
年鑒作為覆蓋面廣、信息密集、事實(shí)性強(qiáng)、連續(xù)更新的資料性工具書(shū),有著其他工具書(shū)無(wú)法比擬的優(yōu)勢(shì),是重要的信息源之一。在我國(guó),大規(guī)模的年鑒全文數(shù)據(jù)庫(kù)的開(kāi)發(fā)走在了世界的前列,它多角度地揭示了年鑒內(nèi)容,大幅提升了信息的序化程度和檢索性能,實(shí)現(xiàn)了跨年鑒、跨年卷的整合檢索,為用戶(hù)查考年鑒信息帶來(lái)了很大的便利。
但是,從用戶(hù)的需求出發(fā),年鑒全文庫(kù)在更新頻率、檢索性能、結(jié)果優(yōu)化等方面都有待進(jìn)一步提高。尤其在當(dāng)前數(shù)據(jù)庫(kù)、報(bào)紙全文庫(kù)產(chǎn)品已占有,“搜數(shù)”后來(lái)居上,第三代搜索引擎新功能疊出的形勢(shì)下,年鑒全文庫(kù)如果不做出自己的特色,將被湮沒(méi)在重圍之中。
2 我國(guó)年鑒全文數(shù)據(jù)庫(kù)的概況
2004年5月,北大方正(Apabi)公司與中國(guó)年鑒研究會(huì)合作,開(kāi)發(fā)出我國(guó)首個(gè)大規(guī)模的年鑒全文數(shù)據(jù)庫(kù)產(chǎn)品——“中國(guó)年鑒資源全文數(shù)據(jù)庫(kù)”。隨后,金報(bào)興圖的《年鑒全文數(shù)據(jù)庫(kù)》和中國(guó)知網(wǎng)(CNKI)的《中國(guó)年鑒全文數(shù)據(jù)庫(kù)》都相繼推向市場(chǎng)。2007年金報(bào)興圖的年鑒全文數(shù)據(jù)庫(kù)被方正合并,因此,當(dāng)前我國(guó)的大規(guī)模年鑒全文數(shù)據(jù)庫(kù)僅Apabi和CNKI兩個(gè)。
Apabi的年鑒全文庫(kù)共收錄年鑒近600種,5300多卷(截至2007.10)m;CNKI的年鑒全文庫(kù)目前提供檢索的年鑒共1301種,約8000卷(截至2007.11.21)t副。它們收錄年鑒的類(lèi)型分布如表1所示:
兩大數(shù)據(jù)庫(kù)的銷(xiāo)售方案也有所不同,Apabi可以按需選購(gòu)年鑒品種,而CNKI則把所有年鑒打包銷(xiāo)售。
3 年鑒全文數(shù)據(jù)庫(kù)現(xiàn)有功能分析
目前兩大年鑒全文庫(kù)都打破了印刷本年鑒的固有結(jié)構(gòu),突破了電子書(shū)傳統(tǒng)的瀏覽模式,實(shí)現(xiàn)了跨年鑒、跨年卷、以條目為單位的整合檢索,一定程度體現(xiàn)了年鑒資源的特點(diǎn),檢索系統(tǒng)也更符合用戶(hù)利用年鑒的特征。
3.1年鑒整刊導(dǎo)航
年鑒整刊導(dǎo)航應(yīng)當(dāng)完整、有序地揭示數(shù)據(jù)庫(kù)收錄的年鑒品種,并提供收錄年鑒品種檢索、選定年鑒中條目檢索的功能。目前兩大數(shù)據(jù)庫(kù)的年鑒整刊導(dǎo)航功能如表2所示。Apabi特別列出了長(zhǎng)三角、黃河流域等專(zhuān)題年鑒品種導(dǎo)航,并專(zhuān)列了“發(fā)展報(bào)告”類(lèi)。在整刊全文瀏覽功能中,Apabi除提供網(wǎng)頁(yè)文本格式的原文外,還提供原書(shū)版式文件全文,以便讀者核對(duì)重要信息,避免文本誤錄人造成的影響。
3.2檢索性能
兩大年鑒庫(kù)都提供初級(jí)檢索與高級(jí)檢索途徑,CNKI還設(shè)置了專(zhuān)業(yè)檢索。它們具體提供的檢索字段、條目類(lèi)型限定及可用檢索技術(shù)如表3至表5所示。
3.3結(jié)果處理功能
結(jié)果處理功能是系統(tǒng)檢索功能的延伸和補(bǔ)充,強(qiáng)大的結(jié)果處理功能可以使用戶(hù)快速篩選信息,便捷地?cái)U(kuò)展相關(guān)信息,有事半功倍之效。目前這兩大數(shù)據(jù)庫(kù)的結(jié)果處理功能如表6所示。
3.4全文顯示格式
CNKI的年鑒文本、表格和圖片均為PDF格式,不便于用戶(hù)下載利用表格和圖片。Apabi的年鑒文本都為純文本格式,表格目前部分年鑒的表格為Excel格式,其他表格均為JPG格式,圖片是具原圖色彩的JPG格式。
4 年鑒全文數(shù)據(jù)庫(kù)存在的問(wèn)題與改進(jìn)策略
針對(duì)年鑒信息的特點(diǎn),結(jié)合信息襝索技術(shù),當(dāng)前的年鑒全文庫(kù)還有不少問(wèn)題有待改進(jìn)。
4.1信息及時(shí)性有待加強(qiáng)
信息的及時(shí)性是年鑒全文庫(kù)在內(nèi)容上保持吸引力的要素之一,包括年鑒新品種的及時(shí)收錄和年鑒信息的及時(shí)更新兩方面。但遺憾的是,目前年鑒全文庫(kù)通常信息時(shí)差總要在印刷版出版后半年以上。
增強(qiáng)信息的及時(shí)性,一方面要把新出版的、質(zhì)量較好的年鑒新品種及時(shí)增加到數(shù)據(jù)庫(kù)中,如《中國(guó)企業(yè)年鑒》等;另一方面,對(duì)已收錄的年鑒應(yīng)及時(shí)更新信息,縮短信息時(shí)滯。數(shù)據(jù)庫(kù)應(yīng)與年鑒社充分溝通,最好在年鑒編纂完成、付印之前,就直接把數(shù)字化的新信息倒人數(shù)據(jù)庫(kù)中。尤其是對(duì)一些數(shù)據(jù)、圖表、事件、動(dòng)態(tài)等時(shí)效性較強(qiáng)的內(nèi)容,年鑒社可能每隔半年或一季度就會(huì)收集新的數(shù)據(jù),數(shù)據(jù)庫(kù)應(yīng)隨時(shí)將這些新收集齊但未正式出版的信息轉(zhuǎn)人年鑒庫(kù),并通過(guò)設(shè)置“最新更新”欄目、RSS訂閱等功能,及時(shí)告知用戶(hù)更新信息。這樣就可以在第一時(shí)間實(shí)現(xiàn)信息的動(dòng)態(tài)更新,把年鑒信息的年度性提升到動(dòng)態(tài)性。
4.2檢索性能應(yīng)更契合年鑒的特點(diǎn)
目前年鑒全文庫(kù)的檢索系統(tǒng)基本上是仿照期刊全文檢索系統(tǒng)開(kāi)發(fā)的,只是增加了一些針對(duì)年鑒的字段和信息類(lèi)型限制,這還不足以體現(xiàn)年鑒信息的特點(diǎn),與讀者的檢索需求尚有一定的距離。近年來(lái),包括自動(dòng)摘要、自動(dòng)分類(lèi)、相似性檢索乃至視頻與圖像內(nèi)容檢索的內(nèi)容挖掘技術(shù)成為新的發(fā)展熱點(diǎn),年鑒數(shù)據(jù)庫(kù)急待引人這些技術(shù),而這些技術(shù)的基礎(chǔ)則是對(duì)數(shù)據(jù)特征的詳盡標(biāo)引。
因此,數(shù)據(jù)庫(kù)首當(dāng)其沖的是應(yīng)針對(duì)不同類(lèi)型的信息作更為詳盡的標(biāo)引,設(shè)定不同的可檢索字段,以便為進(jìn)一步的內(nèi)容挖掘打下基礎(chǔ)。例如,對(duì)機(jī)構(gòu)名錄信息應(yīng)根據(jù)其屬性要素,對(duì)機(jī)構(gòu)名、法人、電話(huà)、傳真、地址、郵編、e—mail、所屬地域、機(jī)構(gòu)性質(zhì)、單位簡(jiǎn)介等進(jìn)行標(biāo)引;對(duì)人名錄則主要包含人名、性別、生卒日、籍貫、工作單位、部門(mén)、職務(wù)、職稱(chēng)、、人物類(lèi)型(先進(jìn)、領(lǐng)導(dǎo)、專(zhuān)業(yè)獎(jiǎng)項(xiàng)獲得者等)、從業(yè)類(lèi)別等屬性的標(biāo)引;對(duì)大事記部分,現(xiàn)有的年鑒全文庫(kù)都是不加分割地作為完整的文獻(xiàn)單元處理,連最簡(jiǎn)單的檢索某日各地發(fā)生的重大事件都不可能,因此應(yīng)以獨(dú)立的事件為單位,用數(shù)據(jù)庫(kù)的結(jié)構(gòu)提取時(shí)間、地點(diǎn)、所屬地域、事件內(nèi)容等相關(guān)信息提供檢索,并按單獨(dú)的事件為單位輸出檢索結(jié)果,而不是輸出整篇大事記的全文;對(duì)法規(guī)類(lèi)信息應(yīng)提取其特有的法律法規(guī)的級(jí)別、頒布部門(mén)、頒布年、實(shí)施年、發(fā)文號(hào)等屬性供用戶(hù)檢索;對(duì)圖像應(yīng)建立基于圖像內(nèi)容的索引庫(kù),提供圖片內(nèi)容特征的搜索;對(duì)表應(yīng)進(jìn)行統(tǒng)計(jì)指標(biāo)、表頭的標(biāo)引,甚至有能力的話(huà),還可以加強(qiáng)對(duì)統(tǒng)計(jì)表的標(biāo)準(zhǔn)化處理,提供具體的數(shù)值檢索,充分體現(xiàn)數(shù)字信息檢索的優(yōu)勢(shì),發(fā)揮年鑒統(tǒng)計(jì)數(shù)據(jù)的價(jià)值。同時(shí),系統(tǒng)應(yīng)在詳盡標(biāo)引的基礎(chǔ)上,對(duì)以上信息類(lèi)型設(shè)置專(zhuān)類(lèi)信息檢索功能,提供針對(duì)各類(lèi)信息的檢索字段,提高信息檢索的精準(zhǔn)度。
4.3檢索結(jié)果后處理能力不強(qiáng)
(1)年鑒全文庫(kù)現(xiàn)有的二次檢索沒(méi)有提供算符的選擇,只能進(jìn)行邏輯“與”的二次檢索,這不便于用戶(hù)進(jìn)一步調(diào)整檢索策略。
(2)對(duì)于年鑒全文庫(kù)而言,由于條目數(shù)量巨大,檢出記錄數(shù)往往較多,因此特別需要對(duì)檢索結(jié)果作進(jìn)一步的分面和聚類(lèi)。但目前的年鑒全文庫(kù)都沒(méi)有提供檢索結(jié)果分面功能。所以,年鑒全文庫(kù)應(yīng)當(dāng)按結(jié)果的信息類(lèi)型、所涉地域、條目年份、所屬年鑒、行業(yè)、學(xué)科等維度進(jìn)行分面,供用戶(hù)選擇合適類(lèi)別的結(jié)果瀏覽,這樣既使大量檢索結(jié)果序化,又可減少讀者篩選結(jié)果的時(shí)問(wèn)。
(3)現(xiàn)有年鑒全文庫(kù)的統(tǒng)計(jì)表基本都是格式或PDF格式,數(shù)據(jù)導(dǎo)出靈活性不夠,用戶(hù)對(duì)統(tǒng)計(jì)表數(shù)據(jù)的再處理非常不便。數(shù)據(jù)庫(kù)應(yīng)對(duì)所有統(tǒng)計(jì)表格以Excel形式錄入并提供導(dǎo)出接口,并可以進(jìn)一步利用ASP、JsP等動(dòng)態(tài)網(wǎng)頁(yè)生成技術(shù),根據(jù)用戶(hù)需求,以交互互動(dòng)的方式輸出數(shù)據(jù),實(shí)現(xiàn)統(tǒng)計(jì)表與統(tǒng)計(jì)圖動(dòng)態(tài)轉(zhuǎn)換的數(shù)據(jù)可視化,為用戶(hù)提供深加工的統(tǒng)計(jì)數(shù)據(jù),簡(jiǎn)化用戶(hù)后續(xù)處理的過(guò)程(這些功能在國(guó)外的Knovel工具書(shū)數(shù)據(jù)庫(kù)中已經(jīng)實(shí)現(xiàn))。此外,在Excel表格顯示地同時(shí)應(yīng)提供原表格的圖片格式或PDF格式的鏈接,以供讀者核對(duì)數(shù)據(jù),保證準(zhǔn)確性。
(4)檢索結(jié)果中條目所屬欄目標(biāo)注不夠完整,僅標(biāo)注了欄目,沒(méi)有標(biāo)注其上級(jí)類(lèi)目,用戶(hù)很難找到該條目在年鑒目錄體系中的準(zhǔn)確位置。因此必須完整標(biāo)注出該條目在年鑒原有框架結(jié)構(gòu)中所屬的篇目>類(lèi)目>分目>欄目(如:上海年鑒>>教育>高等藝術(shù)教育),并分別對(duì)年鑒名稱(chēng)、篇目、類(lèi)目、分目、欄目制作超鏈接,指向與紙本年鑒框架結(jié)構(gòu)一致的年鑒目錄導(dǎo)引下的全文瀏覽,便于用戶(hù)利用年鑒目錄體系調(diào)出相關(guān)內(nèi)容瀏覽。
4.4個(gè)性化服務(wù)功能欠缺
在個(gè)性化功能上年鑒全文庫(kù)還很薄弱,CNK1只提供了檢索的瀏覽,Apabi則只提供條目的收藏,尚缺乏其他服務(wù)。由于年鑒資料連續(xù)性的特點(diǎn),用戶(hù)往往需要對(duì)密切關(guān)注領(lǐng)域的特定資料作跟蹤收集。這就需要數(shù)據(jù)庫(kù)開(kāi)發(fā)針對(duì)用戶(hù)個(gè)體需求的個(gè)性化服務(wù),這些服務(wù)包括特定年鑒品種、年鑒的欄目、檢索策略的RSS訂閱,定題跟蹤,我的檢索集設(shè)定等功能,這樣用戶(hù)就可以在第一時(shí)間獲得由系統(tǒng)自動(dòng)推送來(lái)的最新信息,而不必再每隔一段時(shí)間去查找相同主題的信息。
4.5信息整合層次單一
當(dāng)前的文獻(xiàn)數(shù)據(jù)庫(kù)領(lǐng)域正在發(fā)生著重要的轉(zhuǎn)型,許多數(shù)據(jù)庫(kù)正從單一的信息檢索工具,向廣泛整合外部資源的、綜合的信息資源與服務(wù)體系轉(zhuǎn)變,它是數(shù)字信息源發(fā)展到一定階段的必然選擇,封閉的“信息孤島”是難以充分滿(mǎn)足用戶(hù)需求的。然而,目前年鑒全文庫(kù)對(duì)信息的整合尚停留于以條目為單位的跨年鑒文獻(xiàn)層面,CNKI也僅與自己的各類(lèi)全文庫(kù)做了相似文獻(xiàn)的整合。年鑒全文庫(kù)與其他全文數(shù)據(jù)庫(kù)、工具書(shū)乃至互聯(lián)網(wǎng)信息等外部資源的整合有待加強(qiáng)。
在年鑒各類(lèi)信息中,一些文章類(lèi)信息的參考文獻(xiàn)、二次文獻(xiàn)信息等,可以與電子期刊、電子圖書(shū)等其他全文數(shù)據(jù)庫(kù)建立原文鏈接;有關(guān)法律法規(guī)、標(biāo)準(zhǔn)的信息,如果沒(méi)有全文的,則可鏈向法律法規(guī)和標(biāo)準(zhǔn)全文庫(kù);一些機(jī)構(gòu)名錄、重點(diǎn)單位介紹類(lèi)信息,則可與該機(jī)構(gòu)、團(tuán)體在互聯(lián)網(wǎng)上的網(wǎng)站主頁(yè)建立鏈接;對(duì)于年鑒的統(tǒng)計(jì)指標(biāo)、劃分標(biāo)準(zhǔn)、計(jì)量單位等涉及的專(zhuān)業(yè)術(shù)語(yǔ),可以引入百科全書(shū)、詞典類(lèi)工具書(shū),供讀者查詢(xún)參考。通過(guò)這些方式,可以發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢(shì),多層次地整合各種資源,為用戶(hù)提供全方位的信息保障。
【淺論我國(guó)年鑒全文數(shù)據(jù)庫(kù)的現(xiàn)狀和改進(jìn)策略】相關(guān)文章:
淺論鐵路客車(chē)整備庫(kù)排煙系統(tǒng)的現(xiàn)狀和改進(jìn)03-01
淺論我國(guó)內(nèi)部控制的研究現(xiàn)狀03-18
論我國(guó)目前交通工程的現(xiàn)狀與改進(jìn)措施03-06
我國(guó)網(wǎng)絡(luò)銀行的現(xiàn)狀及其競(jìng)爭(zhēng)策略03-23
我國(guó)鋼鐵企業(yè)成本管理的現(xiàn)狀與改進(jìn)論文11-17
中學(xué)班干部管理現(xiàn)狀分析及改進(jìn)策略03-21