大數(shù)據(jù)時代檔案信息安全管理思路
大數(shù)據(jù)與上世紀九十年代的互聯(lián)網技術一樣,一經產生就迅猛發(fā)展,目前已深入影響世界各國的國家政策制定、科學研究發(fā)展,教育資源分享和國家安全管理等領域。繼聯(lián)合國推出“全球脈動”項目,希望利用“大數(shù)據(jù)”促進全球經濟發(fā)展后,2012年3月29日,美國奧巴馬政府集合美國國防部、能源部、國家科學基金等六個聯(lián)邦部門和機構,宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”。[1]該計劃將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計劃,大力推動與大數(shù)據(jù)相關的信息采集、組織、分析,改善輔助決策的工具與技術,提出“通過收集、處理龐大而復雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創(chuàng)新步伐,強化美國國土安全,轉變教育和學習模式,”并最終確立了“大數(shù)據(jù)”作為未來信息技術發(fā)展的核心地位。值得關注的是,美國政府的大數(shù)據(jù)計劃特別提到了美國國家檔案與文件署(NARA)。我國的檔案界目前雖未提出具體規(guī)劃,但關注新技術、新方法,超前思考檔案工作的未來圖景,一直是研究者和管理者的使命,且國家檔案局2014年審批的科技項目中也有關于大數(shù)據(jù)研究的內容。[2]大數(shù)據(jù)技術橫跨數(shù)據(jù)存儲、虛擬化、云計算、數(shù)據(jù)庫管理、并行計算和數(shù)據(jù)挖掘等多個技術領域,在檔案管理中引入此概念必將帶來工作和科研的多樣化發(fā)展,同時對檔案信息安全管理亦提出了新的要求。檔案安全歷來就包括實體安全和信息安全,檔案信息安全正迎來大數(shù)據(jù)時代和云計算環(huán)境下的新風險、新挑戰(zhàn)。新環(huán)境下的信息安全盡管與以往的信息安全有著歷史的邏輯承續(xù),但形成了一些新的特點,其風險鏈、風險域和風險度都有了諸多新變化,呈現(xiàn)出隱蔽的關聯(lián)性、集群的風險性、泛在的模糊性、跨域的滲透性以及交叉的復雜性等特點,需要加強研究。[3]在深入研究之前,需要厘清相關概念:云計算是你在做的事,而大數(shù)據(jù)是你擁有的東西。[4]一言以蔽之,大數(shù)據(jù)是在云計算基礎架構之上的應用形式。[5]由于大數(shù)據(jù)平臺基本上由基礎層、管理層、分析層和應用層架構而成,在檔案管理的工作實踐中,對數(shù)據(jù)庫的管理勢必對應檔案信息的收集、管理、利用等方面。“大數(shù)據(jù)”概念的引入,使檔案工作從內容到范圍、形式都與固有觀念有所不同。
1檔案數(shù)據(jù)采集安全
檔案數(shù)據(jù)采集包括電子文檔的收集和紙質檔案的數(shù)字化處理兩個部分。檔案數(shù)據(jù)采集安全在強調數(shù)據(jù)收集的齊全完整的同時,也要考慮由于重復收集產生的數(shù)據(jù)冗余問題。
1.1檔案數(shù)據(jù)收集范圍擴展
從某種意義上來說,“大數(shù)據(jù)”的一個重要理念就是掌握的數(shù)據(jù)量越大、內容越豐富,從中推斷出的信息就越多、結論就越有參考價值。具體到檔案工作,無論是從檔案的憑證價值和情報價值,還是檔案的現(xiàn)實價值和長遠價值,抑或檔案的第一價值和第二價值來考慮,就檔案數(shù)據(jù)收集而言,可能需要重新思考收集的范圍和形式。大數(shù)據(jù)往往是唯一的樣本數(shù)據(jù)集。舉例而言,那些測量交通、土壤酸堿、雨量、風力等物理信號的監(jiān)控設備,或視頻監(jiān)控以及其他類型的器材所連續(xù)積累的時段性或實時性數(shù)據(jù),都單獨記錄著一個唯一的活動片段,一旦數(shù)據(jù)丟失,這個片段就隨之永遠消失。[6]從檔案收集的齊全、完整、真實、有效和數(shù)據(jù)安全考慮,這些數(shù)據(jù)文檔都應該實時在線歸檔,并同時保存離線副本。具體操作規(guī)范和標準可參考《電子文件管理暫行辦法》(中辦、國辦廳字〔2009〕39號)和《電子文件歸檔與管理規(guī)范》(標準號:GB/T18894-2002)。另一個比較典型的案例是美國政府的《聯(lián)邦政府Web2.0使用情況和檔案價值報告》,該報告中提到,在社交平臺上產生的信息,只要具有業(yè)務價值、證據(jù)價值和背景價值,就可以認定為歸檔的文件。我國迄今為止雖對這類內容無具體的歸檔規(guī)定,但根據(jù)大趨勢判斷,各級各類檔案館的收集范圍需要主動擴展。檔案大數(shù)據(jù)也可以說是檔案的“全數(shù)據(jù)”。相對于其他領域的數(shù)據(jù)收集,檔案大數(shù)據(jù)更強調的是數(shù)據(jù)的“全”:收集業(yè)務范圍內的所有檔案數(shù)據(jù)。一個基層檔案部門,只要收集了本機關、團體、企事業(yè)單位的全部檔案數(shù)據(jù),即使數(shù)據(jù)總量不大,也可以稱之為大數(shù)據(jù)。因為在其后對這些數(shù)據(jù)進行的分析,將采取“樣本=總體”的方法;凡采用這種分析方式的數(shù)據(jù)分析方法,就稱為大數(shù)據(jù)分析。當一個機構擁有全部或者幾乎全部的檔案數(shù)據(jù),就能從不同的“相關”關系而非“因果”關系中更細致地統(tǒng)計和研究數(shù)據(jù)的方方面面。因此,檔案大數(shù)據(jù)中的“大”不是絕對意義上的,而是相對意義上的“大”。與此同時,在具體工作中我們也發(fā)現(xiàn),在大數(shù)據(jù)環(huán)境下,原來按“單位”進行的檔案收集會有相當程度的冗余信息產生。例如,各級部門下發(fā)的紅頭文件,如果每個收文單位都作了歸檔,在今后可能建立的某種級別的云檔案數(shù)據(jù)庫中就存在相當?shù)臄?shù)據(jù)冗余。[7]這時就可能需要在歸檔的源頭與具體規(guī)定這類文件的歸檔單位,其它收到此類文件的單位不需要歸檔,但在需要時有查詢和利用的權限。
1.2紙質檔案數(shù)字化過程和結果安全
紙質檔案數(shù)字化的過程安全是指在檔案數(shù)字化過程中沒有發(fā)生危害檔案實體和信息安全的事件或行為。因此,一系列的規(guī)章制度和規(guī)范的操作流程是必要的。首先,要考察數(shù)字化服務提供單位的資質和信譽。其次,要建立完善的管理制度。例如,案卷不準擅自帶離加工現(xiàn)場;當日數(shù)字化的案卷必須當日歸庫;案卷進出庫有嚴格的交接、檢查手續(xù)等等。最后,在數(shù)字化的過程中嚴格遵守《紙質檔案數(shù)字化技術規(guī)范》(標準號:DA/T31-2005),檔案的拆卷要以不破壞檔案裝訂原貌為基礎,在掃描過程中保證案卷整潔并確保掃描圖像與原件一致。紙質檔案數(shù)字化的結果安全是指數(shù)字化后的檔案數(shù)據(jù)有效、可用。因此,檔案數(shù)字化后必須經過電子檔案質量檢查這一環(huán)節(jié)。這也是對檔案數(shù)字化結果安全監(jiān)控的重要一步。主要包括三個過程或環(huán)節(jié):一是質量抽查,對于不合格的數(shù)據(jù)要及時返工重掃。二是數(shù)據(jù)檢測,主要內容包括病毒檢測、運行檢測和數(shù)據(jù)核對等三個方面。三是數(shù)據(jù)利用檢測,主要是將全部數(shù)據(jù)直接掛接到檔案管理系統(tǒng)后,對外提供利用時,是否出現(xiàn)錯誤或者使用者發(fā)現(xiàn)的一系列問題。[8]為了保證數(shù)字化后檔案信息的長期有效可用,異地的多種載體備份存儲和數(shù)字信息定期可讀性抽查、復制備份等制度的建立也是必要的。
2檔案信息管理系統(tǒng)安全
從上世紀90年代國內最早的檔案管理軟件產生至今,已經經歷了近20年的發(fā)展。隨著計算機及網絡技術的發(fā)展,數(shù)字化檔案管理方式在分布形式上從最初的單機版(C/S架構)、到網絡版(B/S架構)、直至發(fā)展到最新的面向服務的數(shù)據(jù)平臺(SOA架構);在功能上則從單一的僅實現(xiàn)簡單檔案管理的軟件、到檔案管理軟件與OA系統(tǒng)整合的數(shù)據(jù)庫、再到現(xiàn)今的將數(shù)字化檔案管理方式滲透到整個工作流(workflow)的數(shù)據(jù)庫平臺。檔案大數(shù)據(jù)是在檔案方面涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業(yè)經營決策更積極目的的信息。[9]因此,檔案信息管理系統(tǒng)的安全在很大程度上決定了檔案信息的安全。
2.1數(shù)據(jù)支持平臺安全
美國政府大數(shù)據(jù)計劃中的國家檔案和文件署(NARA)計劃為十億電子記錄(CI-BER)建設網絡基礎設施,這是一個聯(lián)合機構主辦的測試平臺。這個多機構主辦的網絡基礎設施,對國家檔案館87萬多樣化的數(shù)字記錄文件和信息的收集,可稱為計算研究所的“文藝復興”。這個試驗臺將評估技術和方法,進行超大規(guī)模數(shù)據(jù)收集,以支持可持續(xù)的訪問。[10]縱覽國內外各行業(yè)大數(shù)據(jù)建設實踐,構建檔案大數(shù)據(jù)平臺至少要實現(xiàn)四個層次的部署:一、云服務商提供全面、可視化的服務,尤其是檔案大數(shù)據(jù)服務委托方有權隨時監(jiān)管、分析基礎設施中發(fā)生的所有事項;二、收集海量檔案數(shù)據(jù),并解決各個數(shù)據(jù)庫的兼容問題;三、數(shù)據(jù)庫有更快識別目標、鎖定威脅來源和敵對事件的能力和相關設置;四、基礎設施具有可擴展性,可以執(zhí)行短期和長期的分析。監(jiān)控管理、風險控制、規(guī)則遵從是檔案云數(shù)據(jù)支持平臺確保安全的最基本要求。
2.2數(shù)據(jù)計算環(huán)境安全
傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)不能有效地處理大數(shù)據(jù)的原因在于,這些系統(tǒng)的設計無法應對現(xiàn)如今結構化數(shù)據(jù)所占比例越來越低,數(shù)據(jù)類型日益復雜的狀況,以及傳統(tǒng)的數(shù)據(jù)庫無法既迅速又比較經濟地對系統(tǒng)進行拓展。不僅是硬件程序的設計環(huán)節(jié),從數(shù)據(jù)管理的角度來看,少量的數(shù)據(jù)樣本容易進行單獨的測試和監(jiān)控,而檔案大數(shù)據(jù)計算平臺上存儲的數(shù)據(jù)首先要有詳細的類別劃分,其次才是存儲和計算。檔案數(shù)據(jù)庫的數(shù)據(jù)分析完成后,是要將結果呈現(xiàn)給不同的人群使用的。針對同一條查詢指令,應該讓不同角色的人群看到不同的結果信息,即查詢所反饋的結果應該是不一樣的:技術人員讀取有關系統(tǒng)和設置管理的數(shù)據(jù);檔案工作人員查看、操作與自身業(yè)務范圍相關的內容;普通利用者可以得到經審核公開的電子文本或目錄。大數(shù)據(jù)時代的檔案安全解決方案應該包括足夠強大的、能夠針對不同層次的人群提供不同的展現(xiàn)界面和工具。同時,檔案大數(shù)據(jù)系統(tǒng)必須具有目錄整理、檔案采集、檔案審核、系統(tǒng)維護等功能,并利用現(xiàn)化代網絡技術,實現(xiàn)多人多客戶端操作。
3檔案數(shù)據(jù)提供利用安全
正如1893年立式文件柜的出現(xiàn)最終解決了紙質文件的存儲和檢索的困難,檔案大數(shù)據(jù)必將對檔案信息的查找利用帶來顛覆性的變革:檔案收集保管的最終目的是為了方便利用;檔案大數(shù)據(jù)的核心不是擁有數(shù)據(jù),而是拿這些檔案數(shù)據(jù)去做什么。
3.1檔案數(shù)據(jù)比對分析
檔案大數(shù)據(jù)最直觀的應用在于數(shù)據(jù)的比對分析。例如,在經適房的申購過程中,如何才能快速有效地鑒別申購者的資格?用申購者提供的姓名、身份證號等相關信息比對在房地產交易、車輛管理、金融機構等數(shù)據(jù)庫的相關信息,可以準確掌握申購者的資產狀況,剔除不夠格的申請者。還有一個典型例子就是我國醫(yī)療檔案大數(shù)據(jù)建設的“3521工程”。該項目融合了我國絕大部分三甲醫(yī)院和部分二甲醫(yī)院的數(shù)據(jù)庫和影像文件的數(shù)字化信息系統(tǒng)以及電子健康檔案系統(tǒng),旨在通過數(shù)據(jù)自動匯總、統(tǒng)計分析,進行慢性病、流行病的自動篩查、趨勢分析和爆發(fā)預警;同時系統(tǒng)還可以為新藥研發(fā)、新治療方案的設計等工作提供數(shù)據(jù)支持。檔案大數(shù)據(jù)提供利用在一定程度上來說只需要知道檔案大數(shù)據(jù)“是什么”,而不需要知道“為什么”。這種變化已經遠遠突破了技術層面,將對人類認知世界的方式方法產生重大影響。從檔案大數(shù)據(jù)進行的對比分析,就是用檔案數(shù)據(jù)說話的最簡單直接證明。檔案工作的核心在“用”。利用者在檔案數(shù)據(jù)比對分析時,通過軌跡研判、信息關聯(lián)等方式,由已存的較全面的檔案信息,才能得出正確、合理的結論。在這種狀況下,可提供利用的數(shù)據(jù)資源的豐富,就代表了一定程度上的利用環(huán)境安全。
3.2檔案咨詢服務
檔案咨詢服務是網絡社會在海量檔案數(shù)據(jù)的收集、存儲和處理技術基礎上產生的一種具有前瞻性的判斷和預測能力。眾所周知,專家的價值往往在于因果推導,而大數(shù)據(jù)卻放棄對因果關系的追尋,強調關注相關關系。也就是說,大數(shù)據(jù)在很多情況下只要求關注相關關系就足以產生正確的預測。當檔案數(shù)據(jù)“大”到能對整個樣本空間進行覆蓋時,就足以減弱對理論和模型的依賴。例如,不再需要經歷“從特殊到一般(歸納法),再從一般到特殊(演繹法)”的傳統(tǒng)認知過程,而是利用檔案大數(shù)據(jù)去直接實現(xiàn)“從特殊到特殊”的判斷和預測(這種直接的方式也被稱為轉導,transduce)。換言之,此時的檔案數(shù)據(jù)本身便是模型,也即大數(shù)據(jù)可實現(xiàn)全體而非抽樣調查。檔案大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些有較高價值的飽含歷史意義的數(shù)據(jù)進行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。[11]這種主動提供利用的檔案信息不僅僅是提供原始的檔案信息,還應該同時具有內容分析、結果預測、輔助決策等功能。舉例來說,我們在購物網站上的查詢、購買內容被記錄后,經常可以收到商家的商品推薦;在搜索網站上的檢索歷史被記錄后,經常會在該網站的界面看到相關的內容推送。對于這些“智能顯示”,普通人往往有這樣一種認識:對有利于己的,會覺得大數(shù)據(jù)方便實用;對不利于己的,會質疑是誰在后臺收集了我的隱私。基于絕大多數(shù)人的行為是可以預測的,相似的產品和服務被推薦給我們,這在很多情況下是對的,但這是以真正個性化為代價的。[12]所以,檔案大數(shù)據(jù)在提供咨詢利用服務時,也可以參考某些購物平臺的設計,“購買此產品的人還購買了……”進行相關檔案查詢信息的推薦。再舉個實例,對上海世博會期間的交通、人流、消費、生產等檔案數(shù)據(jù)進行統(tǒng)計分析,不僅可以驗證當時的管理措施在人流聚集時效果如何,還可以找出大型活動舉辦期間城市公共設施合理布局和有序運營的參數(shù),對城市管理和規(guī)則出臺提供參考,甚至對可能發(fā)生的災害進行預警。截至2011年,我國各級國家檔案館館藏已達3.3億卷;到2020年,各級國家檔案館館藏案卷將達6億多卷。[13]如此大量的檔案信息,如果檔案管理軟件在程序設計上能夠達到數(shù)據(jù)實時成功抓取,檔案利用服務的水平與今日相較必不可同日而語。大數(shù)據(jù)時代檔案信息安全管理在于提供了一個確實存在的"概念+事實+關系"環(huán)境,通過計算運行,對數(shù)據(jù)進行邏輯推理,從而得出正確結論。大數(shù)據(jù)時代的檔案信息安全是主動地提供檔案數(shù)據(jù)安全保障,而不是等出現(xiàn)了無法挽回的損失再行補救。目前所有的相關研究都是基于這一目的的超前考慮。隨著科學技術的進步及相關技術的發(fā)展,這些研究結果必將不斷修正,以更好地為實際工作服務。
作者:崔海莉 單位:上海師范大學檔案館
本文html鏈接: http://www.cssfps.cn/qkh/67228.html