- 相關(guān)推薦
大數(shù)據(jù)架構(gòu)下的文獻資源管理應(yīng)用論文
摘要:本文介紹了在圖書館情報領(lǐng)域數(shù)據(jù)管理中存在的信息孤島、數(shù)據(jù)類型缺乏統(tǒng)一架構(gòu)等問題,通過對實際應(yīng)用中數(shù)據(jù)類型的分析,利用大數(shù)據(jù)存儲的系統(tǒng)架構(gòu),使用關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫結(jié)合,同時輔以內(nèi)存數(shù)據(jù)庫和分布式文件系統(tǒng),對內(nèi)部用戶提供統(tǒng)一元數(shù)據(jù)管理,對外部提供統(tǒng)一數(shù)據(jù)訪問平臺和統(tǒng)一數(shù)據(jù)搜索引擎,從而實現(xiàn)對多種結(jié)構(gòu)數(shù)據(jù)資源的管理和應(yīng)用.
關(guān)鍵詞:圖書館;大數(shù)據(jù);數(shù)據(jù)存儲;異構(gòu)數(shù)據(jù);非關(guān)系型數(shù)據(jù)庫
作為以圖書館為基礎(chǔ)的情報研究機構(gòu),隨著近年數(shù)據(jù)資源量的不斷增加,各類文獻、圖書、期刊、基礎(chǔ)數(shù)據(jù)等都需要進行穩(wěn)定的存儲與高效率的分析。同時,基于這些數(shù)據(jù)的知識庫、咨詢服務(wù)智庫等系統(tǒng)的建設(shè)也都迫在眉睫。為了能充分管理眾多數(shù)據(jù),為各類系統(tǒng)提供數(shù)據(jù)基礎(chǔ),有必要建設(shè)一個結(jié)構(gòu)統(tǒng)一、技術(shù)先進、可重復(fù)利用的數(shù)據(jù)資源平臺,統(tǒng)一管理各類數(shù)字化資源。
1存在問題
面對大量的數(shù)據(jù)資源,在信息化過程中通常會碰到以下問題:1.1信息孤島現(xiàn)象這種現(xiàn)象是指需求建設(shè)的應(yīng)用系統(tǒng)存在相互之間在功能上不關(guān)聯(lián)互助、信息無法共享互換以及信息與業(yè)務(wù)流程和應(yīng)用相互脫節(jié)等問題,缺乏統(tǒng)一元數(shù)據(jù)管理。1.2多種類型數(shù)據(jù)缺乏統(tǒng)一數(shù)據(jù)架構(gòu)每個業(yè)務(wù)環(huán)節(jié)都會有大量非結(jié)構(gòu)化、結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如何對這類數(shù)據(jù)進行統(tǒng)一分析管理。在這些多種結(jié)構(gòu)的數(shù)據(jù)中存在大量內(nèi)在關(guān)聯(lián),只有統(tǒng)一數(shù)據(jù)存儲,才能進一步挖掘出數(shù)據(jù)中存在的深層價值。1.3軟硬件環(huán)境重復(fù)購買現(xiàn)象在信息化建設(shè)過程中,新建應(yīng)用系統(tǒng)都會根據(jù)自身需求重新搭建軟件、硬件環(huán)境,大部分系統(tǒng)運行所需軟硬件并沒有達到資源的滿負荷利用。1.4缺乏統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)由于多年系統(tǒng)建設(shè)過程中由不同團隊開發(fā),造成相同數(shù)據(jù)內(nèi)容格式不統(tǒng)一,存在大量冗余數(shù)據(jù),彼此數(shù)據(jù)更新不暢通。1.5缺乏統(tǒng)一數(shù)據(jù)安全管理方案在日常工作過程中需要進行大量數(shù)據(jù)交互與實時操作,缺乏統(tǒng)一的信息化安全手段對數(shù)據(jù)分配權(quán)限進行管理,并實現(xiàn)定期的資源備份。
2建設(shè)目標(biāo)
基于以上狀況,考慮基于大數(shù)據(jù)架構(gòu)的文獻資源管理方案應(yīng)可達到以下目標(biāo):(1)實現(xiàn)基于統(tǒng)一元數(shù)據(jù)定義的信息集中管理和信息共享,為數(shù)字出版、數(shù)據(jù)加工、咨詢服務(wù)、日常管理等各項工作提供統(tǒng)一數(shù)據(jù)資源平臺。(2)實現(xiàn)統(tǒng)一大數(shù)據(jù)環(huán)境,滿足各個應(yīng)用對于文檔數(shù)據(jù)、關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)和內(nèi)存型數(shù)據(jù)的統(tǒng)一存儲需求。(3)構(gòu)建基于SOA架構(gòu)的應(yīng)用系統(tǒng),保證在應(yīng)用對于數(shù)據(jù)訪問權(quán)限的統(tǒng)一管理。(4)建設(shè)統(tǒng)一搜索環(huán)境,滿足于各種數(shù)據(jù)資源能夠統(tǒng)一搜索查詢訪問。(5)建設(shè)必須具備高度的先進性、可靠性、可用性、安全性并具備良好的擴展性和靈活性。
3建設(shè)方案
3.1資源建設(shè)方案
圖書館中常見資源主要包括文獻、圖書、期刊、數(shù)值型數(shù)據(jù)、動態(tài)信息等。依據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,可主要分為基礎(chǔ)數(shù)據(jù)、結(jié)構(gòu)化數(shù)值型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、動態(tài)信息、其他文字類信息等幾類。其特點如下:(1)基礎(chǔ)數(shù)據(jù):主要如書目、期刊文獻等數(shù)據(jù);(2)動態(tài)信息:主要包括各類網(wǎng)站、媒體發(fā)布的信息,時效性比較強;(3)非結(jié)構(gòu)化數(shù)據(jù):主要包括格式不夠統(tǒng)一的數(shù)值型數(shù)據(jù);(4)結(jié)構(gòu)化數(shù)值型數(shù)據(jù):可以定期獲取的格式相對規(guī)范的數(shù)據(jù),如海關(guān)進出口數(shù)據(jù)、圖書期刊銷售數(shù)據(jù);(5)其他文字類信息:更新頻度較慢的文字類數(shù)據(jù),如各類法律庫、研究報告等;針對不同類型的數(shù)據(jù)資源,應(yīng)對其采用特定的方式進行處理、保存及利用。3.1.1基礎(chǔ)數(shù)據(jù)包括如數(shù)據(jù)、期刊文獻等基礎(chǔ)數(shù)據(jù)都應(yīng)經(jīng)過數(shù)字化加工、元數(shù)據(jù)定義、自動標(biāo)引、關(guān)鍵數(shù)據(jù)提取等多個步驟,分別保存至相應(yīng)數(shù)據(jù)庫。3.1.2動態(tài)信息動態(tài)信息的來源主要是各個網(wǎng)站,包括網(wǎng)站文章及各類輿情信息?梢杂杉夹g(shù)手段完成從信息采集、分類整理到分發(fā)的所有過程。整個流程由三個規(guī)則來體現(xiàn):分別是采集規(guī)則、分類規(guī)則、分發(fā)規(guī)則。采集規(guī)則:采集規(guī)則由編輯確定,包括來源網(wǎng)站、欄目等。利用爬蟲技術(shù),可對所有網(wǎng)站的資源進行自動增量采集,并裝入“待分類庫”。分類規(guī)則:分類規(guī)則利用到詞表、詞庫以及自動標(biāo)引技術(shù)。由專家及編輯對所有資源進行多維度分類,并提供相應(yīng)的語料,經(jīng)過學(xué)習(xí),對之前進入“待分類庫”中的所有數(shù)據(jù)進行自動標(biāo)引。之后,所有的數(shù)據(jù)將被從多個維度被分類。保存后即可方便準(zhǔn)確的提取。分發(fā)規(guī)則:在完成上述兩項工作之后,所有的動態(tài)信息已經(jīng)被分門別類的整理好。通過分類、關(guān)鍵詞即可快速提取相關(guān)的信息。對于已經(jīng)經(jīng)過規(guī)范化處理的動態(tài)信息,也可以直接利用形成產(chǎn)品,同樣依據(jù)自有的多維分類,即可把相關(guān)的動態(tài)信息直接推送給用戶。3.1.3結(jié)構(gòu)化數(shù)值型數(shù)據(jù)結(jié)構(gòu)化數(shù)值型數(shù)據(jù)包括海關(guān)進出口數(shù)據(jù)、統(tǒng)計局?jǐn)?shù)據(jù)、產(chǎn)品庫等眾多格式相對規(guī)范資源。由于數(shù)據(jù)量的不斷增大,需要考慮使用數(shù)據(jù)倉庫技術(shù)對所有的結(jié)構(gòu)化數(shù)據(jù)進行規(guī)范保存,利用建模的方式保存數(shù)據(jù)。這類數(shù)據(jù)的主要用途分為兩部分對內(nèi)提供數(shù)據(jù)的查詢,對外提供報告的自動生成。(1)數(shù)據(jù)查詢。規(guī)范化存儲之后的數(shù)據(jù)可以方便的通過多個維度進行查詢、鉆取,內(nèi)容的研究人員可以直接通過輸入查詢條件進行數(shù)據(jù)的查詢,同時生成各類圖表。(2)自動報告。對外可以以產(chǎn)品的形式提供多種數(shù)據(jù)報告,利用預(yù)先準(zhǔn)備的模板,在用戶選擇所需報告之后,利用已有數(shù)據(jù),套用不同模板形成一份自動的報告。3.1.4非結(jié)構(gòu)化數(shù)據(jù)對于非結(jié)構(gòu)化數(shù)據(jù),將主要通過兩種方式來處理。(1)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化。部分非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)是結(jié)構(gòu)化數(shù)據(jù),因為某些原因才造成了數(shù)據(jù)的不完整,對于這類數(shù)據(jù),需要整理結(jié)構(gòu)的最大集并將相應(yīng)的數(shù)據(jù)填入對應(yīng)字段。在完成此步驟之后,可采用類似對于結(jié)構(gòu)化處理的方式對這些資源進行處理。(2)非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)引分類。除上述的數(shù)據(jù)之外,還有一部分非結(jié)構(gòu)化數(shù)據(jù)過于零散,只能采用標(biāo)引的方法實現(xiàn)這些數(shù)據(jù)的歸檔利用。方法和動態(tài)信息的處理方式類似。3.1.5文字類信息文字類信息的特點是實效性不強,每次發(fā)布后都會長期使用。比如法律法規(guī)、咨詢報告等。這類資源應(yīng)主要采用自動標(biāo)引的技術(shù)進行處理。首先也需有多個維度的分類、詞庫、詞表以及語料,經(jīng)過學(xué)習(xí)后將每篇文章進行標(biāo)引分類,之后再將文章內(nèi)的段落進行二次標(biāo)引。這樣,所有的資源都可以通過關(guān)鍵詞、多個維度的分類進行提取,即可獲取具體段落資源、也可以獲取完整的文章報告。這類規(guī)整后的信息可提供給內(nèi)部科研人員作為資料進行調(diào)用,同時可以為結(jié)構(gòu)化數(shù)據(jù)的自動生成報告提供文字資源。
3.2技術(shù)建設(shè)架構(gòu)
針對資源建設(shè)的方案,考慮采用關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫結(jié)合的方式建立存儲架構(gòu)。3.2.1數(shù)據(jù)存儲技術(shù)一個完整的數(shù)據(jù)環(huán)境,需要面對來自于各個方面的數(shù)據(jù)存儲需求挑戰(zhàn),主要存在的數(shù)據(jù)存儲需求為:(1)文檔型數(shù)據(jù)存儲需求(2)關(guān)系型數(shù)據(jù)庫數(shù)據(jù)存儲需求(3)實時型數(shù)據(jù)存儲需求(4)非關(guān)系型數(shù)據(jù)關(guān)系型數(shù)據(jù)庫的優(yōu)勢在于保持?jǐn)?shù)據(jù)的一致性,由于以數(shù)據(jù)標(biāo)準(zhǔn)化為前提,數(shù)據(jù)更新的系統(tǒng)開銷很小,同時可以方便的進行Join等復(fù)雜查詢。MySQL是目前最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。尤其在WEB應(yīng)用方面,它與PHP語言的結(jié)合是目前最為成熟、穩(wěn)定、安全的技術(shù)之一。針對現(xiàn)有數(shù)據(jù),絕大多數(shù)的結(jié)構(gòu)化數(shù)據(jù)都可以保存在該類數(shù)據(jù)庫中,從而實現(xiàn)復(fù)雜條件下的檢索操作。同時,關(guān)系型數(shù)據(jù)庫擔(dān)任保存整個系統(tǒng)元數(shù)據(jù)架構(gòu)與基本數(shù)據(jù)的任務(wù),是其他結(jié)構(gòu)數(shù)據(jù)庫存儲及導(dǎo)入導(dǎo)出的基礎(chǔ)。NoSQL泛指非關(guān)系型的數(shù)據(jù)庫。它的優(yōu)勢在于性能,由于NoSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應(yīng)關(guān)系,而且不需要經(jīng)過SQL層的解析,所以性能非常高。另外可擴展性同樣也是因為基于鍵值對,數(shù)據(jù)之間沒有耦合性,所以非常容易水平擴展。它可以最大程度的解決關(guān)系型數(shù)據(jù)庫所不擅長的大量數(shù)據(jù)的寫入處理和為有數(shù)據(jù)更新的表做索引或表結(jié)構(gòu)變更等問題。用NoSQL可以方便的保存系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)實際需求隨時調(diào)整其結(jié)構(gòu)。分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。由于系統(tǒng)中數(shù)據(jù)資源過于龐大,為提高其使用訪問效率,利用HDFS的一次寫入、多次讀寫的特性。數(shù)據(jù)集一旦由數(shù)據(jù)源生成,就會被復(fù)制分發(fā)到不同的存儲節(jié)點中,從而響應(yīng)各種各樣的數(shù)據(jù)分析任務(wù)請求。以Redis為代表的內(nèi)存數(shù)據(jù)庫,是基于全部數(shù)據(jù)都存在內(nèi)存中的技術(shù)體系,拋棄了磁盤數(shù)據(jù)管理的方式,它在采用半持久化模式運行時所有數(shù)據(jù)都是保存在內(nèi)存中,然后不定期的通過異步方式保存到磁盤上。通過這種方式,內(nèi)存數(shù)據(jù)庫在保證讀寫速度遠超過傳統(tǒng)數(shù)據(jù)庫的基礎(chǔ)上,又可對其數(shù)據(jù)進行分布式存儲且具有可恢復(fù)性。針對以上需求內(nèi)容,結(jié)合各種軟件的特性:(1)MySQL滿足關(guān)系型數(shù)據(jù)庫需求;(2)NoSQL滿足對數(shù)據(jù)結(jié)構(gòu)要求靈活需求;(3)HDFS滿足文檔類型數(shù)據(jù)存儲需求;(4)Redis內(nèi)存型數(shù)據(jù)庫,滿足高速存取需求;提供統(tǒng)一數(shù)據(jù)存儲環(huán)境,為后續(xù)數(shù)據(jù)統(tǒng)一元數(shù)據(jù)管理、數(shù)據(jù)統(tǒng)一權(quán)限管理、數(shù)據(jù)統(tǒng)一搜索等建設(shè)提供了充分必要條件。3.2.2數(shù)據(jù)訪問平臺統(tǒng)一數(shù)據(jù)存儲提供大容量數(shù)據(jù)存儲環(huán)境,滿足數(shù)據(jù)存儲的大量、高速、多樣的需求。在這個基礎(chǔ)上,還需要有統(tǒng)一元數(shù)據(jù)對存儲的數(shù)據(jù)結(jié)構(gòu)進行定義,統(tǒng)一數(shù)據(jù)訪問安全控制對數(shù)據(jù)訪問者進行權(quán)限控制,用數(shù)據(jù)統(tǒng)一搜索打通各種類型數(shù)據(jù),為后續(xù)數(shù)據(jù)挖掘分析提供數(shù)據(jù)高速訪問接口。3.2.3統(tǒng)一元數(shù)據(jù)管理元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata),主要是描述數(shù)據(jù)屬性(property)的信息,用來支持如指示存儲位置、歷史數(shù)據(jù)、資源查找、文件記錄等功能。元數(shù)據(jù)算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數(shù)據(jù)的內(nèi)容或特色,進而達成協(xié)助數(shù)據(jù)檢索的目的。將所有資源的元數(shù)據(jù)統(tǒng)一管理,是進一步應(yīng)用的前提。3.2.4數(shù)據(jù)統(tǒng)一搜索在具備數(shù)據(jù)存儲與數(shù)據(jù)訪問平臺基礎(chǔ)上,構(gòu)建滿足于融合關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、文件數(shù)據(jù)庫以及內(nèi)存數(shù)據(jù)庫的統(tǒng)一搜索引擎,并在構(gòu)建搜索索引過程中融入專業(yè)詞庫詞表。以Web服務(wù)方式提供搜索引擎服務(wù),對用戶所輸入的文字進行分詞,并結(jié)合搜索引擎索引,進行詞關(guān)系匹配,并按用戶所需排序格式提供數(shù)據(jù)排序給用戶。搜索服務(wù)提供web服務(wù)方式給應(yīng)用系統(tǒng)使用,應(yīng)用系統(tǒng)需根據(jù)自身權(quán)限范圍進行數(shù)據(jù)搜索范圍設(shè)置。通過上述平臺的組合,可以為圖書館中文獻、圖書、期刊、數(shù)值型數(shù)據(jù)、動態(tài)信息等為主的各類型數(shù)據(jù)提供完整的管理解決方案,并通過具有詞表技術(shù)的搜索引擎提供對外接口。
4結(jié)束語
雖然關(guān)系型數(shù)據(jù)庫有著技術(shù)成熟、易維護、支持SQL方式的復(fù)雜查詢、豐富的完整性約束等諸多優(yōu)勢,且在圖書館情報領(lǐng)域被廣泛應(yīng)用。但隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型的不斷增多以及應(yīng)用模式的不斷變化,嘗試傳統(tǒng)數(shù)據(jù)架構(gòu)+大數(shù)據(jù)架構(gòu)的存儲、管理和應(yīng)用將是圖情領(lǐng)域未來的技術(shù)架構(gòu)發(fā)展方向。
參考文獻
[1]朱潔,羅華霖.大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)[M].電子工業(yè)出版社,2012.
[2][美]湯姆,懷特(TomWhite)著.王海,華東,劉喻,呂粵海譯.Hadoop權(quán)威指南:大數(shù)據(jù)的存儲與分析(第4版)[M].清華大學(xué)出版社,2011.
[3]栗蔚,魏凱.大數(shù)據(jù)的技術(shù)、應(yīng)用和價值變革[J].電信網(wǎng)技術(shù),2013(07).
[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(01).
[5]申德榮,于戈,王習(xí)特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的nosql系統(tǒng)研究綜述[J].軟件學(xué)報,2013(08).
【大數(shù)據(jù)架構(gòu)下的文獻資源管理應(yīng)用論文】相關(guān)文章:
數(shù)據(jù)挖掘的論文參考文獻10-14
安卓應(yīng)用論文參考文獻04-19
計算機應(yīng)用論文參考文獻05-30
人力資源管理畢業(yè)論文參考文獻03-11
人力資源管理論文參考文獻05-08
數(shù)據(jù)挖掘在旅游電子商務(wù)中應(yīng)用論文11-28