- 相關(guān)推薦
電子文件元數(shù)據(jù)自動(dòng)采集的原則與實(shí)施路徑研究
摘要:本文通過(guò)理論研究與實(shí)證分析,進(jìn)一步論證了元數(shù)據(jù)是電子文件管理的命脈,是電子文件真實(shí)性、可靠性、完整性與可用性的重要保障,是對(duì)電子文件實(shí)施前端控制和全程管理的關(guān)鍵,是實(shí)現(xiàn)自動(dòng)化管理和智能分析的重要基礎(chǔ);同時(shí)展示了對(duì)《文書類電子文件元數(shù)據(jù)方案》的實(shí)施與拓展,對(duì)元數(shù)據(jù)實(shí)現(xiàn)自動(dòng)采集的需求分析、原則與思路以及具有可操作性的研究成果。
關(guān)鍵詞:電子文件 元數(shù)據(jù) 自動(dòng)采集
本文系“電子文件元數(shù)據(jù)自動(dòng)采集與智能分析實(shí)證研究”的項(xiàng)目成果。通過(guò)探討理論架構(gòu)并系統(tǒng)實(shí)施電子文件元數(shù)據(jù)自動(dòng)采集,實(shí)現(xiàn)標(biāo)準(zhǔn)化、自動(dòng)化管理,全面提升機(jī)構(gòu)電子文件管理水平,同時(shí)為電子文件內(nèi)容信息智能分析奠定基礎(chǔ);通過(guò)智能分析研究,充分挖掘隱含在電子文件內(nèi)容信息中的知識(shí)關(guān)聯(lián),深度開發(fā),支持決策。
一、元數(shù)據(jù)自動(dòng)采集需求分析
元數(shù)據(jù)是描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個(gè)管理過(guò)程的數(shù)據(jù)。不同于傳統(tǒng)意義上的著錄,元數(shù)據(jù)內(nèi)涵更豐富,功能更全面,要求更嚴(yán)格,不可能由檔案管理人員在文件歸檔后進(jìn)行著錄,更不可能由形成機(jī)構(gòu)文件管理人員或業(yè)務(wù)人員手工錄入。元數(shù)據(jù)需要全程規(guī)劃,需要嵌入系統(tǒng),需要實(shí)時(shí)自動(dòng)采集,需要真實(shí)、動(dòng)態(tài)地再現(xiàn)電子文件管理的背景信息及過(guò)程信息。實(shí)現(xiàn)元數(shù)據(jù)自動(dòng)采集,是元數(shù)據(jù)自身管理的要求,也是形成機(jī)構(gòu)實(shí)際業(yè)務(wù)的需求。
(1)元數(shù)據(jù)管理要求
國(guó)際標(biāo)準(zhǔn)《信息與文獻(xiàn)電子辦公環(huán)境中文件管理原則與功能要求》(ISO 16175 1-3)一再?gòu)?qiáng)調(diào),文件管理元數(shù)據(jù)(metadata)包括“識(shí)別、認(rèn)證文件和文件背景關(guān)聯(lián)等信息以及生成、管理、維護(hù)和使用文件的人員、流程和系統(tǒng)的信息,文件管理政策”。只有伴有界定了關(guān)鍵特征元數(shù)據(jù)的文件才是真實(shí)有效的文件,這些特征必須被清晰地記錄下來(lái)。元數(shù)據(jù)在文件捕獲點(diǎn)上對(duì)文件進(jìn)行詳細(xì)說(shuō)明,固化文件與其業(yè)務(wù)背景的關(guān)聯(lián),對(duì)文件實(shí)施管理控制。在整個(gè)生命周期中,新的元數(shù)據(jù)不斷伴隨業(yè)務(wù)的開展、提供利用而持續(xù)增加,以長(zhǎng)期保證真實(shí)性、完整性、可靠性、可用性,使得對(duì)文件的管理成為可能。
在電子文件管理系統(tǒng)中必須實(shí)現(xiàn)元數(shù)據(jù)的有效管理。電子文件管理系統(tǒng)(ERMS)作為專門用于對(duì)文件的維護(hù)和處置予以管理的系統(tǒng),具有如下屬性:在背景中生成文件;管理和維護(hù)文件;依據(jù)要求的時(shí)間長(zhǎng)度維護(hù)文件;文件管理元數(shù)據(jù)要可以設(shè)定。
作為描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個(gè)管理過(guò)程的數(shù)據(jù),元數(shù)據(jù)最大的特征是動(dòng)態(tài)性,動(dòng)態(tài)地再現(xiàn)文件生成、流轉(zhuǎn)、管理的全過(guò)程,在整個(gè)生命周期中為電子文件(包括由此轉(zhuǎn)化而成的電子檔案)的真實(shí)、完整、可靠、可用保駕護(hù)航。元數(shù)據(jù)的重要價(jià)值在于還原文件的背景信息,反映其所生成的政策法規(guī)和技術(shù)環(huán)境,顯示與其他文件以及業(yè)務(wù)行為責(zé)任者等的各種關(guān)系,克服電子文件虛擬存在的局限?梢,元數(shù)據(jù)記錄和反映的這些錯(cuò)綜復(fù)雜、動(dòng)態(tài)變化的信息已經(jīng)無(wú)法僅僅依靠手工進(jìn)行記錄,必須嵌入系統(tǒng),由系統(tǒng)自動(dòng)判斷、計(jì)算與識(shí)別,實(shí)現(xiàn)系統(tǒng)自動(dòng)采集元數(shù)據(jù)是元數(shù)據(jù)自身管理的要求。
(2)機(jī)構(gòu)業(yè)務(wù)需求
電子文件的特點(diǎn)決定了對(duì)元數(shù)據(jù)的采集必須前置,由前端形成機(jī)構(gòu)伴隨業(yè)務(wù)活動(dòng)的開展和其間文件的形成進(jìn)行采集與管理。《文書類電子文件元數(shù)據(jù)方案》(以下簡(jiǎn)稱《元數(shù)據(jù)方案》)給出了88項(xiàng)元數(shù)據(jù)元素,其中80%需要形成機(jī)構(gòu)進(jìn)行采集,而且過(guò)程性元數(shù)據(jù)需要反復(fù)著錄,側(cè)重記錄電子文件生成的技術(shù)環(huán)境與業(yè)務(wù)過(guò)程信息,所涉問(wèn)題難度大且較復(fù)雜。特別是《元數(shù)據(jù)方案》中規(guī)定的一些元數(shù)據(jù)項(xiàng)存在“宏觀”或“籠統(tǒng)”的情況,比如元數(shù)據(jù)中“日期”項(xiàng),如不結(jié)合文件生成、運(yùn)轉(zhuǎn)、處置的流程予以細(xì)化,則無(wú)法確定采集節(jié)點(diǎn)和采集方式;僅從文件生成流程來(lái)看,面臨著起草、會(huì)商、審核、簽發(fā)等諸多“日期”,哪些日期最為關(guān)鍵、哪些應(yīng)作為元數(shù)據(jù)予以采集、在文件生命周期中是否重復(fù)元數(shù)據(jù)以及如何采集等,都需要結(jié)合機(jī)構(gòu)業(yè)務(wù)流程和相關(guān)規(guī)范深入研究,并實(shí)施精細(xì)化管理。對(duì)文件形成機(jī)構(gòu)(即業(yè)務(wù)機(jī)構(gòu))而言,因?yàn)樵獢?shù)據(jù)管理而徒增繁重手工著錄工作量,造成人力物力財(cái)力的巨大浪費(fèi),進(jìn)而影響機(jī)構(gòu)工作效率與績(jī)效。需要指出的是,元數(shù)據(jù)并不是獨(dú)立的,而是與機(jī)構(gòu)自身電子文件管理基礎(chǔ)密不可分。沒(méi)有科學(xué)的電子文件、檔案一體化全程管理流程,沒(méi)有完備的電子文件元數(shù)據(jù)管理功能要求,便無(wú)法構(gòu)建完善的元數(shù)據(jù)管理方案。因此,本文的研究?jī)?nèi)容是綜合性的,從狹義來(lái)講是電子公文元數(shù)據(jù)自動(dòng)采集方案;從廣義來(lái)講是機(jī)構(gòu)電子文件管理方案。
二、元數(shù)據(jù)自動(dòng)采集原則
(1)基于檔案管理的基本原則
1.來(lái)源原則。元數(shù)據(jù)采集雖然通過(guò)對(duì)電子文件信息加以采集、提煉、分析和組織,揭示文件、檔案的內(nèi)容及其產(chǎn)生規(guī)律,但是仍然以尊重檔案的本質(zhì)屬性和規(guī)律為前提,在采集時(shí)注重體現(xiàn)電子文件來(lái)源,使機(jī)構(gòu)中同一來(lái)源的電子文件通過(guò)元數(shù)據(jù)采集得到集中反映,使元數(shù)據(jù)與檔案的來(lái)源相聯(lián)系,以此通過(guò)元數(shù)據(jù)揭示同一來(lái)源的檔案、文件之間的各種聯(lián)系,為檔案、文件的理解與利用提供來(lái)源方面的背景信息。
2.有機(jī)聯(lián)系原則。有機(jī)聯(lián)系原則也是檔案管理的基本原則,是指系統(tǒng)中文件及組成系統(tǒng)的諸要素之間需保持時(shí)空上的相互聯(lián)系。由于電子文件是以二進(jìn)制代碼的形式分散存在于計(jì)算機(jī)之中,因此保持文件之間的有機(jī)聯(lián)系顯得尤為重要,而要保持這種有機(jī)聯(lián)系,必須依賴于元數(shù)據(jù)。以此原則為導(dǎo)向的元數(shù)據(jù)采集實(shí)質(zhì)上就是電子文件信息的系統(tǒng)化增值過(guò)程,其目的是把分散的文件信息轉(zhuǎn)化為互相聯(lián)系、系統(tǒng)的信息流,形成更高級(jí)的信息產(chǎn)品,滿足用戶的特定利用需求。通過(guò)元數(shù)據(jù)采集與管理過(guò)程,使大量文件特征信息加以系統(tǒng)化和組織化,有效控制檔案、文件信息揭示的數(shù)量和質(zhì)量,克服檔案、文件查詢和利用的困難,提高檢索效率,節(jié)省查詢成本和精力耗費(fèi),實(shí)現(xiàn)價(jià)值增益。
(2)基于電子文件管理的原則
1.前端控制原則。就元數(shù)據(jù)采集來(lái)說(shuō),在已經(jīng)建立了電子文件管理系統(tǒng)的機(jī)構(gòu),電子文件在系統(tǒng)中生成、運(yùn)轉(zhuǎn),電子文件元數(shù)據(jù)采集的前端“超前”至系統(tǒng)的設(shè)計(jì)階段,前端控制的形式也部分轉(zhuǎn)移到系統(tǒng)功能的設(shè)計(jì)之中,即盡可能地把文件生命周期各個(gè)階段的元數(shù)據(jù)需求設(shè)計(jì)在系統(tǒng)之中,以功能合理的OA系統(tǒng)作為管好電子文件的先決條件。
2.全程管理原則。在過(guò)程管理中,所有有助于說(shuō)明電子文件重要屬性和有效管理過(guò)程的信息都被作為元數(shù)據(jù)進(jìn)行采集,以證實(shí)電子文件在管理系統(tǒng)中的運(yùn)轉(zhuǎn)狀況,確保電子文件的管理質(zhì)量。
(3)基于元數(shù)據(jù)管理的原則
1.標(biāo)準(zhǔn)化原則。標(biāo)準(zhǔn)化原則指在元數(shù)據(jù)設(shè)計(jì)過(guò)程中,要與現(xiàn)有的國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、相關(guān)規(guī)范以及國(guó)際標(biāo)準(zhǔn)相一致。隨著元數(shù)據(jù)技術(shù)和XML技術(shù)的廣泛應(yīng)用,現(xiàn)實(shí)環(huán)境中已經(jīng)存在多種元數(shù)據(jù)標(biāo)準(zhǔn)。為保證信息組織的一致性,在元數(shù)據(jù)采集時(shí)必須在一定程度上遵循標(biāo)準(zhǔn)化原則。
2.互操作性原則;ゲ僮髟瓌t體現(xiàn)在對(duì)異構(gòu)系統(tǒng)間互操作能力的支持,不僅可以為自己的應(yīng)用系統(tǒng)所操作,而且可以為其他組織或機(jī)構(gòu)的應(yīng)用系統(tǒng)所操作;不僅可在不同系統(tǒng)實(shí)現(xiàn)同一元數(shù)據(jù)標(biāo)準(zhǔn)間的數(shù)據(jù)的傳輸、交換或轉(zhuǎn)換,而且可在不同元數(shù)據(jù)標(biāo)準(zhǔn)間實(shí)現(xiàn)數(shù)據(jù)的傳輸、交換或轉(zhuǎn)換。在元數(shù)據(jù)的具體應(yīng)用上,互操作性表現(xiàn)為易轉(zhuǎn)換性,即在所攜信息損失最小的前提下,方便地將元數(shù)據(jù)轉(zhuǎn)換為其他系統(tǒng)常用的元數(shù)據(jù)。要實(shí)現(xiàn)這些功能,在元數(shù)據(jù)采集過(guò)程中必須慎重考慮元素語(yǔ)義和元素結(jié)構(gòu)的準(zhǔn)確定義,其中語(yǔ)義定義尤為重要。
3.可擴(kuò)展原則?蓴U(kuò)展性原則指整個(gè)元數(shù)據(jù)體系和每個(gè)元數(shù)據(jù)模塊都應(yīng)該可以擴(kuò)展,保留細(xì)化元數(shù)據(jù)元素的空間以適應(yīng)未來(lái)需求的變化,并可通過(guò)復(fù)用、嵌接、擴(kuò)展、細(xì)化、修改等方式,根據(jù)應(yīng)用需求靈活地構(gòu)建和擴(kuò)展已有的元數(shù)據(jù)。本文將元數(shù)據(jù)劃分為兩大類:標(biāo)準(zhǔn)元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù),劃分依據(jù)為元數(shù)據(jù)的來(lái)源與不同功能。標(biāo)準(zhǔn)元數(shù)據(jù),指《元數(shù)據(jù)方案》中的元數(shù)據(jù)項(xiàng)目。擴(kuò)展元數(shù)據(jù),指描述電子文件的網(wǎng)絡(luò)生成環(huán)境和生成過(guò)程、揭示電子文件分類體系和社會(huì)關(guān)系、量化電子文件利用程度和重要程度的數(shù)據(jù)。見圖1。
4.精細(xì)化原則。所謂精細(xì)化是指通常采用逐層描述元數(shù)據(jù)的方法,使得元數(shù)據(jù)的分析和采集工作進(jìn)一步精確、細(xì)化。在電子文件管理中,精細(xì)化原則是保障電子文件有機(jī)關(guān)聯(lián)性的關(guān)鍵,也是信息挖掘的重要保障。通過(guò)對(duì)元數(shù)據(jù)語(yǔ)義的進(jìn)一步修飾,能夠提高元數(shù)據(jù)的專指性和精確性。
三、元數(shù)據(jù)自動(dòng)采集的方法
(1)在流程中采集
1.電子公文、檔案一體化管理流程設(shè)計(jì)。課題組依據(jù)《黨政機(jī)關(guān)公文處理工作條例》(2012年)、《黨政機(jī)關(guān)公文格式》(GB/ T9704-2012)和《電子文件管理系統(tǒng)通用功能要求》(GB/ T29194-2012),為機(jī)構(gòu)設(shè)計(jì)了一套電子公文、檔案一體化全程管理流程,覆蓋從文件生成、運(yùn)轉(zhuǎn),到歸檔保存或銷毀的全生命周期。一體化流程根據(jù)電子文件運(yùn)動(dòng)的特點(diǎn),進(jìn)行科學(xué)合理規(guī)劃,將部分環(huán)節(jié)前置,部分環(huán)節(jié)后延,部分環(huán)節(jié)貫穿始終等,強(qiáng)調(diào)文件管理和檔案管理的無(wú)縫銜接,詳見圖2。
2.在流程中采集的思路。在一體化流程的基礎(chǔ)上,明確電子文件元數(shù)據(jù)實(shí)時(shí)采集的節(jié)點(diǎn)和每一節(jié)點(diǎn)需要采集的元數(shù)據(jù)項(xiàng)目。課題組將采集的關(guān)鍵節(jié)點(diǎn)確定為電子公文、檔案一體化管理流程的每一個(gè)環(huán)節(jié),并在每個(gè)環(huán)節(jié)分別設(shè)置需要采集的元數(shù)據(jù)項(xiàng)目,包括可選項(xiàng)和必選項(xiàng)。技術(shù)實(shí)現(xiàn)上,使用流程設(shè)計(jì)器,在后臺(tái)事先設(shè)置每一環(huán)節(jié)需要采集的元數(shù)據(jù),前臺(tái)每一環(huán)節(jié)結(jié)束后,該環(huán)節(jié)需要采集的元數(shù)據(jù)便能實(shí)現(xiàn)實(shí)時(shí)采集。
(2)在格式模板和處理表單中采集
電子公文處理表單和格式模板則是實(shí)現(xiàn)元數(shù)據(jù)自動(dòng)采集的重要“對(duì)象”。
1.規(guī)范化智能公文模板和處理表單設(shè)計(jì)。課題組嚴(yán)格遵循上述條例及規(guī)定等,充分考慮元數(shù)據(jù)自動(dòng)采集的需求,設(shè)計(jì)了上行文、平行文、下行文三類合規(guī)性智能公文模板,以及發(fā)文稿紙和收文處理單。
2.格式模板和處理表單采集方法。將采集元數(shù)據(jù)的項(xiàng)目對(duì)應(yīng)到電子公文模板和表單上相應(yīng)的欄目,如題名元數(shù)據(jù),可以定位于收文處理表單、發(fā)文稿紙上的題名欄目,即可實(shí)現(xiàn)自動(dòng)采集。因此,按照規(guī)范設(shè)計(jì)的電子公文模板、發(fā)文稿紙和收文處理單可以采集到題名、發(fā)文字號(hào)、文種、緊急程度、主送、抄送、密級(jí)、保密期限、附件題名、成文日期、收文日期、保管期限等項(xiàng)元數(shù)據(jù)。采用這種方法,標(biāo)準(zhǔn)中的內(nèi)容描述元數(shù)據(jù)全部都能實(shí)現(xiàn)自動(dòng)采集。
(3)在系統(tǒng)設(shè)置中采集
部分元數(shù)據(jù)事先在系統(tǒng)設(shè)置時(shí)就已經(jīng)確定,如描述電子文件生成的技術(shù)環(huán)境、個(gè)人角色及管理權(quán)限、業(yè)務(wù)操作信息等元數(shù)據(jù)需要在系統(tǒng)設(shè)置中自動(dòng)生成。系統(tǒng)自動(dòng)可以生成電子屬性、業(yè)務(wù)實(shí)體元數(shù)據(jù),具體包括機(jī)構(gòu)人員、個(gè)人職位、行為時(shí)間,以及擴(kuò)展元數(shù)據(jù)操作信息元數(shù)據(jù),包括操作時(shí)間、操作次數(shù)、操作時(shí)長(zhǎng)。
(4)在內(nèi)容信息中采集
在內(nèi)容信息中采集,是指對(duì)電子文件的內(nèi)容信息進(jìn)行深入的分詞分析,如人名、地名、機(jī)構(gòu)名等,這是本項(xiàng)目預(yù)期實(shí)現(xiàn)的電子文件內(nèi)容信息的智能分析。該采集方法主要采用了機(jī)器輔助人工抽取、權(quán)重分析技術(shù)和分詞技術(shù)等,其核心在于:基于主題詞表實(shí)現(xiàn)主題詞的自動(dòng)采集;中文智能分詞技術(shù);語(yǔ)料庫(kù)的詞語(yǔ)統(tǒng)計(jì)方法;上下文語(yǔ)義判斷技術(shù);詞表管理技術(shù)。
基于上述原則、思路與方法,課題組研發(fā)的“電子公文、檔案一體化管理系統(tǒng)”不僅可以很好地實(shí)現(xiàn)在公文生成過(guò)程的元數(shù)據(jù)自動(dòng)采集,保證電子公文真實(shí)、完整、可靠、可用,而且“檔案管理子系統(tǒng)”可以完整、高效地承接“文件管理子系統(tǒng)”的所有前期成果,歸檔文件連同“發(fā)文稿紙”、“收文處理單”以及所有元數(shù)據(jù)的無(wú)縫銜接及歸檔。隨著檔案保管、檢索、利用、統(tǒng)計(jì)、處置等業(yè)務(wù)活動(dòng)的開展,基于元數(shù)據(jù)自動(dòng)采集成果的精細(xì)檢索、實(shí)時(shí)統(tǒng)計(jì)、價(jià)值判斷、智能分析更將顯示出實(shí)現(xiàn)元數(shù)據(jù)自動(dòng)采集的強(qiáng)大功效。
參考文獻(xiàn):
[1]王健主編.文書學(xué)(第三版)[M].北京:中國(guó)人民大學(xué)出版社,2015.
[2]中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).GB/T 29194-2012電子文件管理系統(tǒng)通用功能要求[S].2012.
[3]中共中央辦公廳、國(guó)務(wù)院辦公廳.黨政機(jī)關(guān)公文處理工作條例[S].2012.
[4]中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).GB/T 9704―2012黨政機(jī)關(guān)公文格式[S].2012.
[5]王健等譯.電子辦公環(huán)境中文件管理原則與功能要求[M].北京:中國(guó)人民大學(xué)出版社,2012.
[6]中華人民共和國(guó)國(guó)家檔案局. DA/T46- 2009文書類電子文件元數(shù)據(jù)方案[S].2009.
[7]姜偉,王健等.電子文件元數(shù)據(jù)智能分析與可視化呈現(xiàn)[J].北京檔案,2015(7):24-26.
【電子文件元數(shù)據(jù)自動(dòng)采集的原則與實(shí)施路徑研究】相關(guān)文章:
局域網(wǎng)數(shù)據(jù)庫(kù)環(huán)境下數(shù)據(jù)采集及處理05-08
刑罰裁量的原則研究06-04
對(duì)我國(guó)老實(shí)信用原則研究現(xiàn)狀的評(píng)析06-02
專利侵權(quán)認(rèn)定中等同原則的運(yùn)用研究06-01
高性能數(shù)據(jù)采集系統(tǒng)芯片LM12H458及其應(yīng)用05-28
商標(biāo)侵權(quán)損害賠償回責(zé)原則研究06-08
從不同治療原則論失眠的針刺研究05-30
關(guān)于配網(wǎng)自動(dòng)化的工作研究08-22