- 相關(guān)推薦
電子文件元數(shù)據(jù)自動采集的原則與實施路徑研究
摘要:本文通過理論研究與實證分析,進一步論證了元數(shù)據(jù)是電子文件管理的命脈,是電子文件真實性、可靠性、完整性與可用性的重要保障,是對電子文件實施前端控制和全程管理的關(guān)鍵,是實現(xiàn)自動化管理和智能分析的重要基礎(chǔ);同時展示了對《文書類電子文件元數(shù)據(jù)方案》的實施與拓展,對元數(shù)據(jù)實現(xiàn)自動采集的需求分析、原則與思路以及具有可操作性的研究成果。
關(guān)鍵詞:電子文件 元數(shù)據(jù) 自動采集
本文系“電子文件元數(shù)據(jù)自動采集與智能分析實證研究”的項目成果。通過探討理論架構(gòu)并系統(tǒng)實施電子文件元數(shù)據(jù)自動采集,實現(xiàn)標準化、自動化管理,全面提升機構(gòu)電子文件管理水平,同時為電子文件內(nèi)容信息智能分析奠定基礎(chǔ);通過智能分析研究,充分挖掘隱含在電子文件內(nèi)容信息中的知識關(guān)聯(lián),深度開發(fā),支持決策。
一、元數(shù)據(jù)自動采集需求分析
元數(shù)據(jù)是描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個管理過程的數(shù)據(jù)。不同于傳統(tǒng)意義上的著錄,元數(shù)據(jù)內(nèi)涵更豐富,功能更全面,要求更嚴格,不可能由檔案管理人員在文件歸檔后進行著錄,更不可能由形成機構(gòu)文件管理人員或業(yè)務(wù)人員手工錄入。元數(shù)據(jù)需要全程規(guī)劃,需要嵌入系統(tǒng),需要實時自動采集,需要真實、動態(tài)地再現(xiàn)電子文件管理的背景信息及過程信息。實現(xiàn)元數(shù)據(jù)自動采集,是元數(shù)據(jù)自身管理的要求,也是形成機構(gòu)實際業(yè)務(wù)的需求。
(1)元數(shù)據(jù)管理要求
國際標準《信息與文獻電子辦公環(huán)境中文件管理原則與功能要求》(ISO 16175 1-3)一再強調(diào),文件管理元數(shù)據(jù)(metadata)包括“識別、認證文件和文件背景關(guān)聯(lián)等信息以及生成、管理、維護和使用文件的人員、流程和系統(tǒng)的信息,文件管理政策”。只有伴有界定了關(guān)鍵特征元數(shù)據(jù)的文件才是真實有效的文件,這些特征必須被清晰地記錄下來。元數(shù)據(jù)在文件捕獲點上對文件進行詳細說明,固化文件與其業(yè)務(wù)背景的關(guān)聯(lián),對文件實施管理控制。在整個生命周期中,新的元數(shù)據(jù)不斷伴隨業(yè)務(wù)的開展、提供利用而持續(xù)增加,以長期保證真實性、完整性、可靠性、可用性,使得對文件的管理成為可能。
在電子文件管理系統(tǒng)中必須實現(xiàn)元數(shù)據(jù)的有效管理。電子文件管理系統(tǒng)(ERMS)作為專門用于對文件的維護和處置予以管理的系統(tǒng),具有如下屬性:在背景中生成文件;管理和維護文件;依據(jù)要求的時間長度維護文件;文件管理元數(shù)據(jù)要可以設(shè)定。
作為描述文件背景、內(nèi)容、結(jié)構(gòu)及其整個管理過程的數(shù)據(jù),元數(shù)據(jù)最大的特征是動態(tài)性,動態(tài)地再現(xiàn)文件生成、流轉(zhuǎn)、管理的全過程,在整個生命周期中為電子文件(包括由此轉(zhuǎn)化而成的電子檔案)的真實、完整、可靠、可用保駕護航。元數(shù)據(jù)的重要價值在于還原文件的背景信息,反映其所生成的政策法規(guī)和技術(shù)環(huán)境,顯示與其他文件以及業(yè)務(wù)行為責(zé)任者等的各種關(guān)系,克服電子文件虛擬存在的局限?梢,元數(shù)據(jù)記錄和反映的這些錯綜復(fù)雜、動態(tài)變化的信息已經(jīng)無法僅僅依靠手工進行記錄,必須嵌入系統(tǒng),由系統(tǒng)自動判斷、計算與識別,實現(xiàn)系統(tǒng)自動采集元數(shù)據(jù)是元數(shù)據(jù)自身管理的要求。
(2)機構(gòu)業(yè)務(wù)需求
電子文件的特點決定了對元數(shù)據(jù)的采集必須前置,由前端形成機構(gòu)伴隨業(yè)務(wù)活動的開展和其間文件的形成進行采集與管理。《文書類電子文件元數(shù)據(jù)方案》(以下簡稱《元數(shù)據(jù)方案》)給出了88項元數(shù)據(jù)元素,其中80%需要形成機構(gòu)進行采集,而且過程性元數(shù)據(jù)需要反復(fù)著錄,側(cè)重記錄電子文件生成的技術(shù)環(huán)境與業(yè)務(wù)過程信息,所涉問題難度大且較復(fù)雜。特別是《元數(shù)據(jù)方案》中規(guī)定的一些元數(shù)據(jù)項存在“宏觀”或“籠統(tǒng)”的情況,比如元數(shù)據(jù)中“日期”項,如不結(jié)合文件生成、運轉(zhuǎn)、處置的流程予以細化,則無法確定采集節(jié)點和采集方式;僅從文件生成流程來看,面臨著起草、會商、審核、簽發(fā)等諸多“日期”,哪些日期最為關(guān)鍵、哪些應(yīng)作為元數(shù)據(jù)予以采集、在文件生命周期中是否重復(fù)元數(shù)據(jù)以及如何采集等,都需要結(jié)合機構(gòu)業(yè)務(wù)流程和相關(guān)規(guī)范深入研究,并實施精細化管理。對文件形成機構(gòu)(即業(yè)務(wù)機構(gòu))而言,因為元數(shù)據(jù)管理而徒增繁重手工著錄工作量,造成人力物力財力的巨大浪費,進而影響機構(gòu)工作效率與績效。需要指出的是,元數(shù)據(jù)并不是獨立的,而是與機構(gòu)自身電子文件管理基礎(chǔ)密不可分。沒有科學(xué)的電子文件、檔案一體化全程管理流程,沒有完備的電子文件元數(shù)據(jù)管理功能要求,便無法構(gòu)建完善的元數(shù)據(jù)管理方案。因此,本文的研究內(nèi)容是綜合性的,從狹義來講是電子公文元數(shù)據(jù)自動采集方案;從廣義來講是機構(gòu)電子文件管理方案。
二、元數(shù)據(jù)自動采集原則
(1)基于檔案管理的基本原則
1.來源原則。元數(shù)據(jù)采集雖然通過對電子文件信息加以采集、提煉、分析和組織,揭示文件、檔案的內(nèi)容及其產(chǎn)生規(guī)律,但是仍然以尊重檔案的本質(zhì)屬性和規(guī)律為前提,在采集時注重體現(xiàn)電子文件來源,使機構(gòu)中同一來源的電子文件通過元數(shù)據(jù)采集得到集中反映,使元數(shù)據(jù)與檔案的來源相聯(lián)系,以此通過元數(shù)據(jù)揭示同一來源的檔案、文件之間的各種聯(lián)系,為檔案、文件的理解與利用提供來源方面的背景信息。
2.有機聯(lián)系原則。有機聯(lián)系原則也是檔案管理的基本原則,是指系統(tǒng)中文件及組成系統(tǒng)的諸要素之間需保持時空上的相互聯(lián)系。由于電子文件是以二進制代碼的形式分散存在于計算機之中,因此保持文件之間的有機聯(lián)系顯得尤為重要,而要保持這種有機聯(lián)系,必須依賴于元數(shù)據(jù)。以此原則為導(dǎo)向的元數(shù)據(jù)采集實質(zhì)上就是電子文件信息的系統(tǒng)化增值過程,其目的是把分散的文件信息轉(zhuǎn)化為互相聯(lián)系、系統(tǒng)的信息流,形成更高級的信息產(chǎn)品,滿足用戶的特定利用需求。通過元數(shù)據(jù)采集與管理過程,使大量文件特征信息加以系統(tǒng)化和組織化,有效控制檔案、文件信息揭示的數(shù)量和質(zhì)量,克服檔案、文件查詢和利用的困難,提高檢索效率,節(jié)省查詢成本和精力耗費,實現(xiàn)價值增益。
(2)基于電子文件管理的原則
1.前端控制原則。就元數(shù)據(jù)采集來說,在已經(jīng)建立了電子文件管理系統(tǒng)的機構(gòu),電子文件在系統(tǒng)中生成、運轉(zhuǎn),電子文件元數(shù)據(jù)采集的前端“超前”至系統(tǒng)的設(shè)計階段,前端控制的形式也部分轉(zhuǎn)移到系統(tǒng)功能的設(shè)計之中,即盡可能地把文件生命周期各個階段的元數(shù)據(jù)需求設(shè)計在系統(tǒng)之中,以功能合理的OA系統(tǒng)作為管好電子文件的先決條件。
2.全程管理原則。在過程管理中,所有有助于說明電子文件重要屬性和有效管理過程的信息都被作為元數(shù)據(jù)進行采集,以證實電子文件在管理系統(tǒng)中的運轉(zhuǎn)狀況,確保電子文件的管理質(zhì)量。
(3)基于元數(shù)據(jù)管理的原則
1.標準化原則。標準化原則指在元數(shù)據(jù)設(shè)計過程中,要與現(xiàn)有的國家標準、行業(yè)標準、相關(guān)規(guī)范以及國際標準相一致。隨著元數(shù)據(jù)技術(shù)和XML技術(shù)的廣泛應(yīng)用,現(xiàn)實環(huán)境中已經(jīng)存在多種元數(shù)據(jù)標準。為保證信息組織的一致性,在元數(shù)據(jù)采集時必須在一定程度上遵循標準化原則。
2.互操作性原則;ゲ僮髟瓌t體現(xiàn)在對異構(gòu)系統(tǒng)間互操作能力的支持,不僅可以為自己的應(yīng)用系統(tǒng)所操作,而且可以為其他組織或機構(gòu)的應(yīng)用系統(tǒng)所操作;不僅可在不同系統(tǒng)實現(xiàn)同一元數(shù)據(jù)標準間的數(shù)據(jù)的傳輸、交換或轉(zhuǎn)換,而且可在不同元數(shù)據(jù)標準間實現(xiàn)數(shù)據(jù)的傳輸、交換或轉(zhuǎn)換。在元數(shù)據(jù)的具體應(yīng)用上,互操作性表現(xiàn)為易轉(zhuǎn)換性,即在所攜信息損失最小的前提下,方便地將元數(shù)據(jù)轉(zhuǎn)換為其他系統(tǒng)常用的元數(shù)據(jù)。要實現(xiàn)這些功能,在元數(shù)據(jù)采集過程中必須慎重考慮元素語義和元素結(jié)構(gòu)的準確定義,其中語義定義尤為重要。
3.可擴展原則。可擴展性原則指整個元數(shù)據(jù)體系和每個元數(shù)據(jù)模塊都應(yīng)該可以擴展,保留細化元數(shù)據(jù)元素的空間以適應(yīng)未來需求的變化,并可通過復(fù)用、嵌接、擴展、細化、修改等方式,根據(jù)應(yīng)用需求靈活地構(gòu)建和擴展已有的元數(shù)據(jù)。本文將元數(shù)據(jù)劃分為兩大類:標準元數(shù)據(jù)和擴展元數(shù)據(jù),劃分依據(jù)為元數(shù)據(jù)的來源與不同功能。標準元數(shù)據(jù),指《元數(shù)據(jù)方案》中的元數(shù)據(jù)項目。擴展元數(shù)據(jù),指描述電子文件的網(wǎng)絡(luò)生成環(huán)境和生成過程、揭示電子文件分類體系和社會關(guān)系、量化電子文件利用程度和重要程度的數(shù)據(jù)。見圖1。
4.精細化原則。所謂精細化是指通常采用逐層描述元數(shù)據(jù)的方法,使得元數(shù)據(jù)的分析和采集工作進一步精確、細化。在電子文件管理中,精細化原則是保障電子文件有機關(guān)聯(lián)性的關(guān)鍵,也是信息挖掘的重要保障。通過對元數(shù)據(jù)語義的進一步修飾,能夠提高元數(shù)據(jù)的專指性和精確性。
三、元數(shù)據(jù)自動采集的方法
(1)在流程中采集
1.電子公文、檔案一體化管理流程設(shè)計。課題組依據(jù)《黨政機關(guān)公文處理工作條例》(2012年)、《黨政機關(guān)公文格式》(GB/ T9704-2012)和《電子文件管理系統(tǒng)通用功能要求》(GB/ T29194-2012),為機構(gòu)設(shè)計了一套電子公文、檔案一體化全程管理流程,覆蓋從文件生成、運轉(zhuǎn),到歸檔保存或銷毀的全生命周期。一體化流程根據(jù)電子文件運動的特點,進行科學(xué)合理規(guī)劃,將部分環(huán)節(jié)前置,部分環(huán)節(jié)后延,部分環(huán)節(jié)貫穿始終等,強調(diào)文件管理和檔案管理的無縫銜接,詳見圖2。
2.在流程中采集的思路。在一體化流程的基礎(chǔ)上,明確電子文件元數(shù)據(jù)實時采集的節(jié)點和每一節(jié)點需要采集的元數(shù)據(jù)項目。課題組將采集的關(guān)鍵節(jié)點確定為電子公文、檔案一體化管理流程的每一個環(huán)節(jié),并在每個環(huán)節(jié)分別設(shè)置需要采集的元數(shù)據(jù)項目,包括可選項和必選項。技術(shù)實現(xiàn)上,使用流程設(shè)計器,在后臺事先設(shè)置每一環(huán)節(jié)需要采集的元數(shù)據(jù),前臺每一環(huán)節(jié)結(jié)束后,該環(huán)節(jié)需要采集的元數(shù)據(jù)便能實現(xiàn)實時采集。
(2)在格式模板和處理表單中采集
電子公文處理表單和格式模板則是實現(xiàn)元數(shù)據(jù)自動采集的重要“對象”。
1.規(guī)范化智能公文模板和處理表單設(shè)計。課題組嚴格遵循上述條例及規(guī)定等,充分考慮元數(shù)據(jù)自動采集的需求,設(shè)計了上行文、平行文、下行文三類合規(guī)性智能公文模板,以及發(fā)文稿紙和收文處理單。
2.格式模板和處理表單采集方法。將采集元數(shù)據(jù)的項目對應(yīng)到電子公文模板和表單上相應(yīng)的欄目,如題名元數(shù)據(jù),可以定位于收文處理表單、發(fā)文稿紙上的題名欄目,即可實現(xiàn)自動采集。因此,按照規(guī)范設(shè)計的電子公文模板、發(fā)文稿紙和收文處理單可以采集到題名、發(fā)文字號、文種、緊急程度、主送、抄送、密級、保密期限、附件題名、成文日期、收文日期、保管期限等項元數(shù)據(jù)。采用這種方法,標準中的內(nèi)容描述元數(shù)據(jù)全部都能實現(xiàn)自動采集。
(3)在系統(tǒng)設(shè)置中采集
部分元數(shù)據(jù)事先在系統(tǒng)設(shè)置時就已經(jīng)確定,如描述電子文件生成的技術(shù)環(huán)境、個人角色及管理權(quán)限、業(yè)務(wù)操作信息等元數(shù)據(jù)需要在系統(tǒng)設(shè)置中自動生成。系統(tǒng)自動可以生成電子屬性、業(yè)務(wù)實體元數(shù)據(jù),具體包括機構(gòu)人員、個人職位、行為時間,以及擴展元數(shù)據(jù)操作信息元數(shù)據(jù),包括操作時間、操作次數(shù)、操作時長。
(4)在內(nèi)容信息中采集
在內(nèi)容信息中采集,是指對電子文件的內(nèi)容信息進行深入的分詞分析,如人名、地名、機構(gòu)名等,這是本項目預(yù)期實現(xiàn)的電子文件內(nèi)容信息的智能分析。該采集方法主要采用了機器輔助人工抽取、權(quán)重分析技術(shù)和分詞技術(shù)等,其核心在于:基于主題詞表實現(xiàn)主題詞的自動采集;中文智能分詞技術(shù);語料庫的詞語統(tǒng)計方法;上下文語義判斷技術(shù);詞表管理技術(shù)。
基于上述原則、思路與方法,課題組研發(fā)的“電子公文、檔案一體化管理系統(tǒng)”不僅可以很好地實現(xiàn)在公文生成過程的元數(shù)據(jù)自動采集,保證電子公文真實、完整、可靠、可用,而且“檔案管理子系統(tǒng)”可以完整、高效地承接“文件管理子系統(tǒng)”的所有前期成果,歸檔文件連同“發(fā)文稿紙”、“收文處理單”以及所有元數(shù)據(jù)的無縫銜接及歸檔。隨著檔案保管、檢索、利用、統(tǒng)計、處置等業(yè)務(wù)活動的開展,基于元數(shù)據(jù)自動采集成果的精細檢索、實時統(tǒng)計、價值判斷、智能分析更將顯示出實現(xiàn)元數(shù)據(jù)自動采集的強大功效。
參考文獻:
[1]王健主編.文書學(xué)(第三版)[M].北京:中國人民大學(xué)出版社,2015.
[2]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 29194-2012電子文件管理系統(tǒng)通用功能要求[S].2012.
[3]中共中央辦公廳、國務(wù)院辦公廳.黨政機關(guān)公文處理工作條例[S].2012.
[4]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標準化管理委員會.GB/T 9704―2012黨政機關(guān)公文格式[S].2012.
[5]王健等譯.電子辦公環(huán)境中文件管理原則與功能要求[M].北京:中國人民大學(xué)出版社,2012.
[6]中華人民共和國國家檔案局. DA/T46- 2009文書類電子文件元數(shù)據(jù)方案[S].2009.
[7]姜偉,王健等.電子文件元數(shù)據(jù)智能分析與可視化呈現(xiàn)[J].北京檔案,2015(7):24-26.
【電子文件元數(shù)據(jù)自動采集的原則與實施路徑研究】相關(guān)文章:
局域網(wǎng)數(shù)據(jù)庫環(huán)境下數(shù)據(jù)采集及處理05-08
刑罰裁量的原則研究06-04
高性能數(shù)據(jù)采集系統(tǒng)芯片LM12H458及其應(yīng)用05-28
從不同治療原則論失眠的針刺研究05-30
配網(wǎng)自動化技術(shù)風(fēng)險及控制研究05-25
機械工程自動化技術(shù)研究05-04