国产精品白浆一区二小说-亚洲av无码潮喷在线观看-无码国内精品久久人妻蜜桃-真人无码作爱免费视频禁hnn-欧美色欧美亚洲另类二区

歡迎進入上海益波方智能科技有限公司官方網站

行業關注

我國檔案館(室) 建設的新方向——?智慧檔案館(室)

發布時間:2022-11-18      文章分類:行業關注      瀏覽量:1231      文章來源:國家檔案局


在大數據技術和人工智能技術已經把我國社會推向智慧社會或智能化社會的今天,在大多數檔案館(室)正在大力開展檔案數字化,一部分檔案館(室)已被認證為數字檔案館(室)的新形勢下,我國檔案館(室)建設的新方向或新目標是什么?我認為是智慧檔案館(室)。


 一、什么是智慧檔案館(室)


我這里所說的智慧檔案館(室),同之前很多人所說的智慧檔案館(室),在概念上、內涵上及側重點上,都是不同的。

2019年7月和8月,我不止一次地在有關學術會議上提出我對智慧檔案館(室)的新理解,并同時也提出了與之密切相關的“檔案數據化”這一新概念。在此之前,關于智慧檔案館(室)的概念,業界已經使用了一段時間,但主要還是聚焦于怎樣用自動化、智能化技術去實現檔案保管環境的自動控制、檔案實體的自動跟蹤、檔案裝具的自動移動、檔案信息系統的自動集成與升級、檔案工作業務流程的自動整合與再造等。總之,其側重的是檔案館(室)的外在管理或物理管理,即:溫濕度及有毒有害氣體的管理、自動報警、自動滅火;案卷和資料的自動跟蹤、自動調取、自動歸還;人流與物流的自動監控;信息流的順暢便捷等。但是,我所提出的智慧檔案館(室),卻不是這樣的。

我所說的智慧檔案館(室),首先應該把檔案或檔案數字化圖像的內容全文輸入電腦,即把檔案全部“數據化”,讓檔案內容全都變成可被電腦全文檢索、任意組合、全部關聯、重新生成、主動推送的數據,使檔案里所包含的智慧,經過電腦處理,成為人類智慧的一部分,成為人的外腦;其次,它也能對檔案實體、檔案裝具、檔案環境、檔案人流、檔案工作各環節等進行智能化、自動化、聯動化的管理。它所側重的是檔案內容的智慧性攝取或智慧管理、知識管理。智慧檔案館是繼傳統檔案館(室)及數字檔案館(室)之后的第三代檔案館(室),是檔案館(室)的3.0版。它可以說是目前已建設了20多年的數字檔案館(室)的升級版,也可以說是已開展了30多年的檔案信息化的升級版。

為什么說智慧檔案館(室)是對數字檔案館(室)的升級呢?根本原因在于數字檔案館(室)對傳統的紙質檔案進行圖像掃描,每頁檔案只是一張可供閱讀的圖像,每件檔案只有題名、形成者、形成時間、主題詞或關鍵詞等信息是可由電腦編輯處理的數據,而大量的掃描圖像都是不可編輯的,檔案的全文內容仍要人工來閱讀、檢索、組合、分析、挖掘。而智慧檔案館(室)的所有文字記錄的檔案甚至聲像檔案,都已經經過識別或轉換成了電腦可檢索的電子文檔,所有文字都已經被輸入電腦,成為電腦可用大數據挖掘技術任意處理的信息或數據。這是數字檔案館(室)和智慧檔案館(室)的根本區別所在,也是智慧檔案館(室)比之數字檔案館(室)堪稱升級換代的原因所在。

為什么說智慧檔案館(室)也是對檔案信息化的升級呢?我們先看看信息和智慧兩個詞的含義。在現代科學中,信息指事物發出的消息、指令、數據、符號等所包含的內容。而智慧則主要指人辨析判斷、發明創造的能力,它是一種高級的綜合能力,包含感知、記憶、理解、聯想、邏輯、辨別、計算、分析、判斷、決定等多種能力。從這兩個詞的含義當中我們可以看出:信息是比較低層次的東西,只表示事物的客觀狀態;而智慧則是比信息層次更高的東西,它包含了對事物狀態的理解、聯想、邏輯、分析、判斷、決定等更深刻、更高一級的認知。或者說,信息只是未經處理的數據,智慧則是對數據進行加工處理,具有了邏輯性、關聯性、推理性、創造性等,已經不等于原來的信息了。智慧是綜合處理后的信息,是互相關聯的信息,是重新生成的信息,是處理了的、加工過的、升級了的信息。如果打個比方,信息是面粉,而智慧則是面粉做成的饅頭、包子、餃子、面包等面粉加工品;信息是大米,而智慧則是大米做成的米飯、米線、年糕、發糕等大米加工品。這就是信息和智慧的區別所在,是檔案信息化和智慧檔案館(室)的根本區別所在,也是智慧檔案館(室)比之檔案信息化堪稱升級換代的原因所在。

從智慧和信息的區別來看,信息基本相當于數據。數據的含義是進行各種統計、計算、科學研究和技術設計所依據的數值,是事實或觀察的結果,是用于表示客觀事物的未經加工的原始素材,并被認為是信息的表現形式和載體。所以,數據基本上跟信息是一樣的東西。隨著大數據技術的出現,現在數據一詞很流行,幾乎和信息一詞在20世紀80年代的流行程度一樣。彼時是無事物無信息,現今則是無事物無數據;彼時是信息一詞泛化,而現今又是數據一詞泛化。

智慧檔案館(室)首先要把檔案數據化或信息化。檔案數據化是相對于之前的檔案數字化而言的,是我在2019年的一次講話中為了區別于此前人們常說的檔案數字化而提出來的。其實,它的意思就是把紙質檔案或紙質檔案數字化圖像中的每個字都轉換成電腦可以處理的數據或信息,并輸入電腦,進入數據庫,供人們通過大數據技術進行挖掘和處理。數據是智慧檔案館(室)的基礎。沒有數據,特別是沒有檔案內容的所有數據,就不能把數據或信息變成智慧。也可以說,智慧檔案館(室)是基于數據的,有了數據和各種數據處理技術,才有智慧檔案館(室)。所以,沒有數據就談不上建設智慧檔案館(室)。

智慧檔案館(室)的數據應包括電腦可檢索的檔案全文數據,即:信息流數據;檔案實體、檔案裝具、檔案設備等方面的數據,即物流數據;檔案工作者、檔案利用者、檔案參觀者等方面的數據,即人流數據;檔案庫房溫度、濕度及各種有毒有害氣體濃度,水、火、菌、蟲、鼠等各種環境或條件的數據,即環境數據。也就是說,“智慧檔案館(室)的數據=檔案全文數據+物流數據+人流數據+環境數據”。在這些數據中,檔案全文數據是最關鍵、最重要、最根本、具有決定性的部分。建設智慧檔案館(室),最重要的是運用各種手段盡快地把紙質檔案和紙質檔案數字化圖像及錄音錄像檔案等全部轉化為電腦可以檢索的電子文檔,把檔案里的前人智慧挖掘出來,轉化為今人的智慧,這就是檔案數據化,即檔案的數據轉化工作。檔案數據化是智慧檔案館(室)建設的要義和核心。

目前,檔案數據化或是把檔案由文字、聲音轉化為數據的途徑至少有以下幾種:第一種,對原件上文字為鉛排、打印的紙質檔案以及原件上文字雖然手寫但又十分工整的檔案,用?OCR?識別技術進行轉化,其準確率可在99%以上;第二種,對原件上文字為手寫且?OCR?技術不易識別的檔案,用特殊的手寫字識別技術進行轉化,其準確率目前最高可達95%左右;第三種,用人工錄入電腦的辦法轉化;第四種,用人工朗讀文字并通過音頻技術把聲音轉換成文字,其準確率也可達95%左右。需要指出的是,目前這4種轉化方式都需要人工進行校核,都不能100%準確。在轉化過程中,文字能全部準確轉化出來最好,如不能也不要緊。因為檔案中并不是每個字都具有數據意義或檢索價值的,有的虛詞、連接詞、形容詞、裝飾詞、重復強調語等,即使這些字轉化不出來或不準確,也并不會太大影響整份檔案的實際應用。對全文數據來說,當然是越多越好,但也不是每個字都不能少,或少一個字就不行。舉一個例子:“張建國,他出生于一九四九年,也就是新中國成立的那一年。”這句話共24個字,但真正具有實際檢索意義的,只有“張建國,一九四九年出生”這10個字。只要把這10個關鍵的字轉化出來了,這句話的基本意思或基本要素、主要信息、核心要義就有了,其他14個字,也就是一半以上的部分,能轉化出來當然更好,即使不能轉化出來也不太影響全句主要意思和基本信息的表達。因此,現有的各種數據轉化技術都可以先進行應用,并在應用中不斷提高其轉化準確率,而不必等到某種技術完全成熟了再去用。

智慧檔案館(室),光有數據還不行,還必須有數據挖掘和主動推送技術。數據挖掘就是通過算法從數據庫的大量數據中展開搜索,找出隱含的、先前未知的、有潛在價值的信息。為實現上述目標,需要利用統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別、人工智能、可視化等多種技術手段。數據挖掘是通過分析每個數據,從大量數據中找出規律、找出相互聯系、找出因果關系的技術。它有3個步驟:第一步是數據準備;第二步是對規律和關系的尋找;第三步是規律和關系的表示。數據挖掘的主要任務是分析,比如關聯分析、聚類分析、分類分析、異常分析、特異群組分析、演變分析等。由此看來,數據挖掘技術實際上就是對大數據進行智慧性處理的技術,是把信息變成智慧的技術,是讓蘊含在檔案里的智慧更加顯性、更加集中、更加智慧的技術。通過數據挖掘技術,能夠挖掘出檔案的潛在價值和潛在用戶,挖掘出用戶的潛在需求,從而大大提高檔案的價值。更為重要的是還能對挖掘出來的數據進行關聯性推送、自主推送、定向推送,這就是主動推送技術。如果說檔案全文數據是建立智慧檔案館(室)的基礎和前提,那么,數據挖掘與主動推送技術就是建立智慧檔案館(室)的核心和關鍵。如果說,智慧檔案館(室)的全部要素要是100分的話,那么在我看來,檔案全文數據和數據挖掘、主動推送技術,二者要各占40分,其他各種要素加起來也就只占20分。因為其他要素大多在數字檔案館(室)中已經具備了,有的甚至還會成為冗余,需要增加的新技術既不太多也不太難,而且更不是關鍵。

為什么說在智慧檔案館(室)中檔案全文數據和數據挖掘及主動推送技術缺一不可呢?因為只有數據的檔案館(室)還不能稱為智慧檔案館(室),也還不是真正的智慧檔案館(室)。數據只

是信息,沒有數據挖掘技術去處理它,它仍然成不了智慧,或者說稱不上是真正的智慧。必須依靠數據挖掘技術,通過各種具有針對性的算法,對數據進行關聯分析、聚類或分類分析、異常或異類分析、演變分析、對比分析等,才能讓數據產生關聯,形成聯系和連接,形成趨勢和走向,看出規律和變異,從而生成經過加工、集合、升華的新信息,甚至作出判斷和備選方案,變成智慧。沒有數據挖掘與自主推送技術,數據就只是孤島,只是孤零零的數字或文字。打個比方,數據是米,數據挖掘與主動推送技術是廚師,只有米而沒有廚師,就做不出香噴噴的米飯;再打個比方,數據是線,數據挖掘與自主推送技術是繡娘,沒有繡娘,就繡不出好看的繡品。離開數據挖掘與主動推送技術,數據永遠是一;而有了數據挖掘與主動推送技術,它就能夠問一知十、問一知百,甚至知千知萬,而且還主動告訴你,自動推送給你,有針對性地推薦給你。因為它已將相關的數據和你以往的利用喜好、利用需求聯接起來了。比如,我們從網上查一個人的簡歷,不但可以找到這個人的簡歷,這個人所有在網絡中的文章、講話內容、活動、照片、音頻、視頻等,也會一同被顯示出來,甚至包括跟他同名的人、同職務的人、有關聯的人的信息也可以被呈現出來。這和數字檔案館(室)是有很大不同的。數字檔案館(室)是不查不知、查一知一的,而智慧檔案館(室)則是一查就全知,查一而知道所有或很多的。而這個差異,主要就是由數據挖掘與主動推送技術造成的。當然,除了數據和數據挖掘與推送技術外,智慧檔案館(室)還應該有數據采集、數據存儲、數據傳輸等新型技術和設備作為支撐。

綜上所述,我們就可以知道“智慧檔案館(室)=檔案全文數據+數據挖掘與推送技術+數據采集系統+數據存儲系統+數據傳輸系統”。智慧檔案館(室)必須有3個要素:一是以檔案全文數據為核心,包括其他各種檔案業務和檔案工作數據的大數據;二是以數據挖掘與主動推送技術為核心,包括數據采集、數據感知、數據存儲、數據傳輸等的數據處理及主動推送技術;三是可以將檔案實體、檔案裝具、檔案環境、檔案業務系統、檔案人員、檔案利用者連接起來的物聯網系統。所以,也可以說“智慧檔案館=檔案數據+數據挖掘與推送技術+物聯網”。這就是我所理解的智慧檔案館(室),它和現在其他人所提出、所理解、所認為、所定義的智慧檔案館(室)不同之處有3點:一是強調了檔案的全文數據化,而別人沒提到。二是強調了數據挖掘與主動推送技術,別人也沒提到。這兩點我認為是智慧檔案館(室)的主要標志和主要內容,是智慧檔案館(室)的靈魂和核心,沒有這兩點,智慧檔案館(室)是不充分的、名不符實的。三是別人強調了對檔案實體的自動調取、跟蹤監控,對檔案柜架的自主移動、自動開閉,對檔案保管環境的自動監控、自主調節等,而我認為在智慧檔案館(室)中,這些并不是必要的,有些甚至還是冗余的。

 


二、為什么現在要建設智慧檔案館(室)


我們為什么現在要迫切地提出建設智慧檔案館(室)呢?因為現在有著5個方面的有利條件和現實基礎。

1.智慧社會的到來,為智慧檔案館(室)建設營造了外部環境

“智慧社會”的提法,源于IBM在2008年11月提出的“智慧地球”的概念,2009年時任美國總統奧巴馬運用了這個提法后,這個概念迅速躥紅。它包括三個要素,即物聯化、互聯化、智能化。這個概念提出后,很多城市又提出了“智慧城市”的概念,并開始了智慧城市的建設和評選,我國的許多城市就在積極地建設智慧型城市。2019年我在雄安看到了無人駕駛汽車、無人酒店、無人超市等,切切實實地感受到了智慧城市的雛形。伴隨著智慧城市的還有智慧小區、智慧樓宇、智慧家居等。此外,智慧教育、智慧交通、智慧醫療、智慧司法、智慧旅游、智慧人文、智慧物流等也已經撲面而來,各行各業、方方面面都在以智慧為引領,推進智能化建設。正是在此基礎上,黨的十九大提出了“智慧社會”這一新的理念,智慧社會的到來為智慧檔案館(室)建設營造了很好的社會環境,同時也增添了現實的迫切性。

2.人工智能和數據挖掘推送為智慧檔案館(室)提供了關鍵技術

(1)先看人工智能技術

最近幾年我們先后看到,“阿爾法狗”這款智能人工軟件,先是在2017年以4:1戰勝了前世界圍棋第一人李世石九段。這是人工智能研究的一個標志性成就和里程碑式事件。之后,它又在2018年擊敗了史上最年輕的“五冠王”、中國圍棋九段職業棋手柯潔,再次顯示了人工智能的威力。緊接著,在中央電視臺“中國詩詞大會”節目中出現了一款輸入了幾萬首詩詞的機器人,與詩詞高手們同臺競賽,主持人任意出一個詩題,機器人都能根據題意寫出詩來,而且水平不亞于人類,與同臺選手的寫詩水平難分伯仲。同樣在2018年,我國應用了機器人播音。它能模仿任何人進行播音,只要把某人的聲音和影像資料輸進去,它就能模仿這個人進行播音,其動作、表情、聲音都惟妙惟肖。現在,科大訊飛可以根據聲紋來讓機器人模仿任何人的聲音,只要輸入不到一分鐘的真人聲音,機器人即可模仿出可以亂真的模擬聲音。

2019年11月,司法部在南京召開有關“智慧司法”的會議,重慶市司法局展示了法律服務智能機器人“大牛”,它的服務速度和準確度已多次戰勝人類律師。最近我在參觀科大訊飛時得知,他們研制的智能機器人參加律師資格考試,竟然勝過90%以上的人類考生;智能機器人教師能夠批改考試卷,并且比人類教師批改得更加客觀公正,其評分一致率在中考試卷評分中普遍高于人類教師5%左右,在高考試卷評分中普遍高于人類教師10%左右;智能機器人醫生的診斷水平也高于很多人類醫生,因而被推薦到全國很多基層醫院做醫生助手使用。

由上可見,人工智能技術的發展,已使得機器人不但具有“智慧”,而且具有高于人類平均水平或高于普通人的“智慧”。以前,我們以為機器人只能干體力活,不能干智力活,但現在人工智能技術的發展,已經打破我們的這個認識。

(2)再看數據挖掘推送技術

近年來,我切實感受到數據挖掘推送技術的發展。它不但挖掘出很多新信息,而且還定向地、主動地向人進行推送。比如,我用手機和電腦錄入文字,剛輸入一個字,輸入法軟件就會彈出由這個字組成的所有詞或詞組供我選擇;我用搜索引擎查某個詞,也會出來一連串與之相關聯的自動推送。為什么在新聞類App上會有很多我想看的消息?那是App?根據我過去的閱讀內容、閱讀習慣而主動推送給我的。這些都是運用算法等數據挖掘推送技術來完成的。

定向推送技術最知名的應用是所謂“俄羅斯干預美國大選”。據說俄羅斯運用定向推送技術,向美國各種不同的人群,定向地、主動地推送美國總統候選人有關信息,對選民進行“洗腦”和引導,影響選民對候選人的好惡。

由上可見,數據挖掘與推送技術發展得也出乎想象地快,應用得也出乎意料地普遍。今天,可能我們一不小心就會被別人“定向推送”,并加以左右甚至成功“洗腦”了。

人工智能技術也好,數據挖掘推送技術也好,都是把數據變成智慧的技術。這些技術的應用和發展,為建設智慧檔案館(室)提供了關鍵性的技術,讓智慧檔案館(室)不再是一個空話或標簽,而是能夠變成現實、得以實現、成為實際。在它們沒有出現的時候,人們講智慧檔案館(室),只能是表面的、淺層次的、名義上的,甚至是誤讀的,而當它們出現以后,建設智慧檔案館(室)就可以名副其實了,可以建成實質意義上的智慧檔案館(室)。這些技術的出現,是我這兩年開始提出建設智慧檔案館(室)的一個重要主因。

3.信息識別轉化為智慧檔案館(室)建設提供了技術手段

以前,傳統的紙質和聲像檔案要轉化為電腦可檢索的數據,實現手段只有一個—?人工輸入電腦。盡管有漢語拼音輸入、筆畫輸入、手寫輸入等方法,但輸入速度都比較慢。之后,又不斷地發展出一些新的信息識別轉化技術。

(1)OCR識別技術

目前只能用于印刷體或手寫特別工整的文字,其識別率可達99%以上。一頁印刷的或手寫工整的檔案掃描進電腦,通過軟件即可把它轉化成電腦可以檢索的文字。前提是檔案頁面要整潔,沒有凌亂的筆畫,否則識別率就會降低。

(2)手寫字掃描識別技術

為了解決?OCR?技術識別不了手寫檔案的問題,人們又專門研究出手寫字的掃描識別技術。據我所知,科大訊飛的掃描識別技術在識別民國檔案上的繁體手寫字時,準確率已可達80%以上。銀雁科技的簡體手寫字識別技術的準確率也能達90%左右。前幾年,中國科學院自動化研究所的掃描識別技術在掃描識別快遞上的簡體手寫字時,準確率已可達95%以上。隨著掃描識別的不斷積累,識別率肯定還會繼續地不斷提高,將來一定能達到目前??OCR??對印刷體字的識別水平。

(3)聲音轉化文字技術

也就是通過人來讀檔案,機器再把人的聲音轉化成文字。只要讀音準確,機器基本能“聽聲出字”,準確率也很高,它的速度是電腦手工輸入的一倍以上。前不久,我在科大訊飛目睹了一場“嘴”和“手”的比賽:國內一些數字化公司的錄入快手之間先進行比賽,產生的冠軍再與訊飛的聲音錄入員比賽,結果“人嘴”完勝了“人手”,聲音轉化文字的速度大大快于計算機手工錄入文字的速度。

(4)人臉識別技術

主要是根據人的面部特征,把照片、錄像中的人物識別出是誰來。

智慧檔案館(室)建設,關鍵在于建立檔案全文數據;建立檔案全文數據,關鍵又在于把檔案里電腦不能檢索的文字、聲音、圖像,轉化成可檢索的數據。當有了以上這些途徑的識別轉化技術以后,檔案數據化就不再是不可能的了,而是變成完全可能了。這些技術的應用和發展,也是我在今天提出建設智慧檔案館(室)的又一個主要原因。

4.檔案行業對建設智慧檔案館(室)有了更高的積極性,使智慧檔案館(室)建設有了實現主體

從檔案部門來說,有些檔案室十幾年前就通過手工錄入的方法,對檔案進行了“數據化”,把檔案中的所有文字轉化成了電腦可以檢索的數據。只可惜那時尚無數據挖掘技術,因而未對這些數據進行智慧性開發、關聯性挖掘和自主式推送。2014年以來,浙江省和其他一些地方的檔案館(室)在數字檔案館(室)的基礎上,對檔案實體、檔案保管條件等方面進行智能化、自動化管理,進行了他們所自定義的智慧檔案館(室)建設。

從檔案服務企業來說,科大訊飛2018年以來分別同國家檔案局、浙江省檔案館等單位簽署了包括人工智能應用等“智慧檔案”建設在內的戰略合作協議,并在相關檔案館進行了紙質檔案數據化建設的試驗。還有一些檔案服務企業,最近幾年也提出了基于檔案實體自動化跟蹤和管理、檔案裝具自動性移動、檔案溫濕度自動控制、檔案安全自動報警等的所謂“智慧服務”。

檔案館(室)的積極性會帶動起檔案服務企業的積極性和創造性。因為檔案館(室)有建設智慧檔案的積極性,則會產生智慧檔案的需求;智慧檔案的需求,則會引發檔案服務企業產生積極性,引導企業的技術和人力向這個方面發展、向這個方向投入。檔案館(室)是需方,他們有需求,但缺技術、缺人力;檔案服務企業是供方,他們有技術、有人力,但缺市場、缺用武之地。現在,需方和供方這雙方都產生了并且雙方都有積極性,就可以自然結合、互利共贏。他們的結合,可以很快讓智慧檔案變成現實,讓智慧檔案館(室)建設起步、起飛。他們的積極性,讓我看到了智慧檔案館(室)建設的可行性和現實性。

5.在推進紙質檔案數字化的過程中,不厘清思路將造成人力和財力的浪費

檔案數據化之于檔案數字化,智慧檔案館(室)之于數字檔案館(室),是迭代式的更新和發展,是覆蓋性的提高和增強,是管理方式的根本性變化、轉向性發展。不少工作在數字檔案館(室)建設中是必要項,而在智慧檔案館(室)中則會成為非必要項,成為閑置的、冗余的、無用的東西。如果我們盡早開展檔案數據化,則可以不做這些不久將會無用的工作,避免不必要的人力、物力和時間的浪費。比如,我在2019年年底到一個省級檔案館參觀時,看到他們正在大規模地開展檔案數字化,其中有幾十個人都在搞檔案題名的著錄。但是在智慧檔案條件下,檔案已經全文數據化,每個字都可以供電腦任意檢索了,現在著錄的題名、責任者、文種、形成時間等,就沒有單獨存在的意義了,因為它已經包含在全文數據當中了。一份檔案的每句話、每個詞、每個字,都可被檢索出來,無需人工再去重新擬寫標題并著錄各項主要內容。前不久,在一次觀看人工著錄標題與錄音轉化著錄標題的比賽時,主持人曾問我,這種人工著錄標題將來的前景怎樣?我就回答了3個字:“會消失!”因為檔案全文數據化后,就無需再做現在這些費時費力的標題著錄工作了。還有一些檔案館(室)熱衷于搞檔案實體的自動跟蹤、監控和管理,在這方面花人力、花時間、花經費,其實也大可不必。因為檔案數字化或數據化以后,紙質檔案實體應全部進入封存狀態,一般情況下,在庫房內不會再移動,無需再去自動跟蹤、監視、管理它。所以,人們今天正在費人、費力、費錢去做的一些事,將在檔案數據化后失去意義。因此,各個檔案館(室)越早開展檔案數據化工作,就越能避免更多重復勞動或無效勞動,越能避免花更多冤枉錢,越能更好地提高我們的工作水平。

以上這些,都為智慧檔案館(室)建設提供了各方面的條件,使智慧檔案館(室)建設具有了現實的可行性,也有了實際的可操作性,甚至還有了緊迫性。因為“智慧化”是目前的大勢所趨,已不得不行。因此,智慧檔案應該是我國檔案館(室)建設和檔案事業發展的新方向、新目標、新任務、新出路。



  三、怎樣建設智慧檔案館(室)


1.切實轉變思想觀念

轉變思想觀念是建設智慧檔案館(室)的第一步,沒有這一步就不可能建設智慧檔案館(室)。轉變思想觀念主要是要樹立以下幾種新觀念:

(1)樹立數據越多越智慧的觀念

這是一種全新的思想觀念,是和我們過去的傳統觀念完全不同的新觀念。因為在有了數據處理技術后,數據越多就越接近事物的原貌和全貌,智能機器人就越智慧、越聰明,回答的問題和給出的方案就越準確、越精確。比如,擁有1億個用戶的導航系統,肯定比只有1000萬個用戶的導航系統更準確;存有10萬首詩的機器人,肯定比只存有1萬首詩的機器人更會作詩;存有100年氣象檔案的機器人,肯定比只存有10年氣象檔案的機器人預報天氣更準確。這就說明,數據越多越智慧。

(2)樹立數據就是財富的觀念

早在2014年,我參觀阿里巴巴公司時,相關負責人就告訴我:“對我們來說,數據不是包袱,而是財富。”我認為,在大數據時代,數據對任何單位都是正資產而不是負資產,都是一筆財富而不是一個包袱。數據越多就越智慧、越有價值、越是真正的財富。為什么現在有很多公司免費讓你用它的軟件,實際上就是為了“攢數據”。擁有的數據越多,這家公司就越值錢,上市后的市值就越高,越有人向它投資。將來決定同類智能機器人誰更精確、誰更智慧、誰更值錢,主要是看誰輸入的數據更多。所以,數據就是財富,在今天不但是理念和口號,而且是活生生的現實,是我們過去所從未見過、從未認識到的。

(3)樹立數據都是檔案的觀念

由于數據都是記錄,而記錄就是檔案,所以,數據也是檔案。檔案工作者必須盡早地認識到數據都是檔案,盡早地把數據看作檔案,并把數據當作檔案去收集、去管理、去服務。這樣,檔案館(室)才能不喪失數據并擁有數據,檔案部門才能不被數據部門所取代。否則,檔案館(室)將失去最大量、最重要的檔案資源—數據,檔案工作和檔案部門也將逐步被數據工作、數據部門所覆蓋并取代。

(4)樹立“數據=檔案=財富”的觀念

既然上面我已說到兩個等式:“數據=財富”“數據=檔案”,那么我們也可以推導出第三個等式:“檔案=財富”,并可以把這三者畫等號,得出“數據=檔案=財富”的結論。在大數據時代、智能化時代、智慧時代,檔案工作者一定要樹立“數據=檔案=財富”的新觀念,不要再認為數據不是檔案,也不要認為數據和檔案不是財富。否則,檔案數據化和智慧檔案館(室)建設就缺少了理論依據和精神動力,就會增加認識上和行動上的阻力。

(5)樹立合作開展檔案數據化和數據挖掘的觀念

有些檔案部門的同志,一想到檔案數據化工程那么巨大,一想到數據挖掘和主動推送技術那么高深艱難,檔案部門又缺少這方面的人才,就會打退堂鼓,不敢去想,更不敢去干。實際上,這些工作大都可以外包出去,讓科技服務企業幫你去干,讓專家幫你去干,甚至花錢買相關的軟件和設備,組織人去干。這樣你還覺得難嗎?過去,檔案數字化或者說是數字檔案館(室)的建設,不就是這么干起來、干出來的嗎?下一步的檔案數據化和數據挖掘推送,或者說是智慧檔案館(室)建設,也完全可以這么干,甚至可以說也必然會這么去干。目前,有的公司有這樣的積極性,有的公司有這樣的現成技術和現成設備,只要有檔案館(室)愿意去做,馬上就會有人同你合作、幫你去干,直到幫你干成、幫你干好。

2.及時收集新形成的檔案數據

目前,在各個檔案形成單位,文字方面的檔案都是電子檔案,都可自動成為電腦任意處理的數據,但還有不少活動還完全沒有記錄,或者雖有錄音、錄像等記錄,但沒有轉化為文字,沒有成為電腦可處理的數據。這就造成了新數據的缺失。不久前,我在科大訊飛看到了他們的一些設備,很適合于幫助各個檔案形成單位及時地收集今后所有新形成的檔案數據。比如,過去領導外出視察、調研活動中的即席談話,無人錄音或錄像,這些談話的原始數據就隨即消失了,只能靠后人零星的回憶。而現在科大訊飛的錄音設備,讓領導裝在衣袋里或夾在衣服上,所有講話都錄下聲音來,形成錄音檔案,同時又由設備轉化成文字記錄,形成電子檔案。又比如,過去開會,大多數靠人工記錄,每個人的講話都記錄不全,甚至記錄不準。少數的有錄音甚至錄像,但錄音、錄像都沒有及時整理成文字,仍然不能成為電腦可以處理的數據。而現在科大訊飛的設備可以把錄音、錄像中的講話內容,全部都轉化為文字,讓它成為電腦可處理的數據。再比如,一些檔案館搞口述史記錄,對相關人員進行錄音、錄像,但這些聲音也沒有及時轉化成文字即電腦可處理的數據。他們也可借助科大訊飛的相關設備和技術,及時把這些聲音全部轉化為文字記錄,轉化為數據。這也可以叫“智慧建立檔案”或“智慧收集檔案”吧!它可以幫助人們把檔案建立得更豐富,把數據搜集得更廣泛。

3.積極開展非電子檔案的數據化工作

目前,在絕大多數檔案館(室)中,紙質檔案和音像檔案這些非電子檔案普遍都沒有開展數據化工作,即電腦可處理文字的轉化工作。而這是建設智慧檔案館(室)的前提和關鍵,也是工作量最大的一項工作,是最實的一招。各個檔案館(室)都要以最堅定的信心、最大的力量去完成這項工作。

(1)紙質檔案或其數字化圖像數據化

已開放檔案可以先搞數據化,因為它可以外包給檔案數據化企業去做。涉密檔案可以先不搞數據化,有特殊需要的可采購設備,用自己人去搞。紙質檔案數據化,可以各種技術并用,可用?OCR?識別技術轉化的,則用?OCR?識別技術轉化成數據,因為它速度最快,成本也最低。不能用?OCR?識別的,還可用其他技術和方法去轉化,一種是手寫字識別技術,即把手寫檔案掃描進電腦,電腦通過軟件識別成它可處理的文字;另一種是聲音轉化技術,即由人把手寫檔案中的每個字讀出準確的讀音來,設備通過聲音轉化成文字即電腦可處理的數據;再一種是電腦手工錄入技術,即由錄入員把檔案上的文字通過拼音或字碼錄入電腦,轉化成文字。以上這4種方法,檔案館(室)可以根據自己的檔案情況和經費情況等,或單獨運用,或聯合使用,或多種并用。只要咬定青山不放松,用釘釘子的精神,一年接著一年干,堅持數年,必有大成。

(2)音像檔案數據化

就是把錄音、錄像檔案中的聲音通過聲音識別轉化技術或軟件,全部自動地轉化成文字即電腦可處理的數據,并把它導入數據庫。這樣,音像檔案中的所有聲音內容就可以全部數據化了。這項技術不但可以把音像檔案中的文字全部轉化為數據,讓它成為人類智慧的一部分,而且還可以通過聲音識別并找出數據庫中某個人的所有聲音。現在,很多年代久遠的音像檔案中有些聲音已不知道發言者是誰了,但只要有一份音像檔案知道是誰的,設備就可以根據這個已知人的聲音,把他的其他音像檔案都識別出來,讓人們知道那些也是這個人講的。并且設備還可以根據文字找到聲音在檔案中的位置,利用者通過文字即數據內容可隨即聽到某段聲音或看到某段錄像。

(3)照片、錄像檔案中的人物數據化

這是通過人臉識別技術來完成的。在很多過去的照片和影像中,有的人對得上名字,有的人則對不上名字,人物數據沒被挖掘出來。現在,通過相關的人臉識別軟件,輸入電腦的所有照片和影像中的人物,只要有一處被對上過名字,那么該人物在其他所有場景中都可以被準確地識別出來,并對上名字。這樣,照片檔案和影像檔案中的很多人物就被自動識別出來了,“無名氏”就變成了“有名氏”,人物的數據就會大大地擴充,變得更為廣泛。

通過這幾方面工作,紙質檔案、音像檔案、照片檔案中的信息就可以完成數據化,并進入相應的大數據庫,成為被電腦所挖掘和推送的數據,成為智慧檔案館(室)的源頭和儲備。數據儲備越多,檔案館(室)就越智慧、越有價值。

4.廣泛收集數據

建設智慧檔案館(室),數據是基礎。各個檔案館(室)要運用各種數據自動收集技術,廣泛收集各種數據。

(1)收集檔案內容數據

也就是檔案的全文數據。要運用各種技術,把紙質檔案、照片檔案、音像檔案中能夠轉化的,全部轉化為電腦可處理的數據,并把它們同電子檔案數據匯合在一起,建立起檔案全文數據庫。這是基礎,是重點,是最要緊、最關鍵的數據。收集得越早越好,收集得越廣泛、越齊全越好。除檔案外,報紙、雜志、內部出版物等資料的數據將來也可收集進來,它們對檔案數據也是重要的補充。

(2)檔案實體數據

即檔案的編號、數量、位置、被移動情況、被利用情況、損壞或修復情況等方面的數據。在智慧檔案館(室)里,檔案實體是基本不動的,對它的監控不需要太復雜,主要記錄它的位置、數量、動用等就可以了。

(3)檔案環境數據

即檔案庫房的溫濕度、有毒有害氣體濃度、灰塵濃度、煙霧濃度等數據。這些數據,各地可以因地制宜,主要收集有損檔案安全的主要數據。比如,一些溫濕度變化不足以影響檔案安全的地區,就無需建立溫度和濕度的數據。

(4)人流數據

包括檔案工作者人數、檔案利用者人數、檔案參觀者人數、工作交流者人數,以及他們的位置等。

(5)其他數據

比如,檔案裝具的數量及位置,庫房的數量及位置,工作用房和技術用房的數量及位置,檔案設施設備的數量、位置、年限等。

檔案館(室)只有把各方面數據都收集齊全,才能根據這些數據進行智慧性管理。擁有以上這些數據后,通過利用大數據技術和物聯網系統就可以實現檔案館(室)中的信息與電腦、人與電腦、物品或設備與電腦,以及信息與信息、人與人、物與物、人與信息、人與物、信息與物等等之間的互聯互通、互感互知。

5.千方百計確保數據安全

有了數據,還要用各種方法保證數據的安全。因為,數據是智慧檔案館(室)的靈魂,數據一旦丟失,檔案館(室)就只剩下外殼。

(1)對全部數據在異地備份一套以上

數據都是電子的,電子數據的最大弱點是不安全因素很多,安全系數比較低,安全風險比較大。為了確保它的安全,就要對它全部進行異地備份,在幾百公里以外的多處地方備份保存一套以上,從而確保特殊情況導致數據丟失后,能有備份數據頂上來,不會造成數據的“全軍覆沒”。

(2)應用自動報警設備

要普遍應用防火、防水、防盜、防遠程攻擊等的自動報警設備。在高溫、高濕地區還要有高溫、高濕的自動報警與調控設備。

(3)應用自動滅火裝置

數據庫房要用防火、防水材料進行隔離,而且一定要有自動滅火裝置,以確保即使庫房發生火災也能自動撲滅,不致損毀數據。

(4)設置防遠程攻擊的“防火墻”

電子數據的一個軟肋是黑客可以通過網絡發起遠程攻擊,竊取、篡改、調換、鎖住或銷毀數據。所以,數據庫房必須采用最先進的信息安保技術和設備,為數據建立“防火墻”“安全盾”“生命線”。

6.積極采用數據挖掘推送技術

對智慧檔案館(室)來說,數據是它的硬件,數據挖掘推送技術則是其軟件。離開這個軟件,智慧檔案不能真正實現。各級檔案館(室)要開始重視這方面的技術、人才和企業。各級檔案館(室)要眼睛向外,尋找具有數據挖掘推送技術背景的人才和企業,同他們開展合作,先對目前已有現成數據的電子檔案運用算法進行挖掘和推送。以此為基礎,先建立智慧檔案館(室)的框架和基礎。既可以在簽訂保密協議、確保數據不外泄的基礎上,把數據挖掘與推送外包給有關企業,就像過去搞檔案數字化和信息化一樣。當然,各級檔案館(室)也可以引進相關人才,自己來搞,特別在招收新錄用人才時,要招收一些數據挖掘推送方面的人才,就像過去招收計算機人才一樣。

檔案服務企業更要注重數據挖掘推送技術,盡早地研究這項技術,并開展這項工作。這一技術將來的應用前景會很大,因為它將像以往的計算機技術一樣,全面地覆蓋全國所有的檔案館(室),將來真正風行全國、風行世界的,將是這項技術和人才。

高等學校要盡早開設數據挖掘推送技術方面課程,培養這方面的人才。因為這方面人才現在社會上很急需。未來幾年、十幾年中,數據工程師必然會像十幾年前的網絡工程師一樣稀缺和緊俏。檔案服務企業和檔案館(室)可以和高校聯合培養或在高校定向培養這方面人才,并優先錄用這方面人才。

7.盡快地主動推送檔案信息

智慧檔案館(室)在有了一些基礎后就要積極地投入應用,主動地向領導、向各方面利用者推送現有的檔案數據。比如,領導要本地某一年糧食方面的數據,你不但迅速給他提供出這一年的糧食數據,而且還給他主動推送出本地歷年的糧食數據及增減趨勢,今年糧食數據在歷年中的位置和比較,再推送出跟糧食有關的本地歷年油料、棉花、水果、蔬菜、氣象、災害等數據,外地這一年和歷年的糧食數據,本地這一年和歷年同外地的比較等。再比如,某利用者要用張三的參軍證,你不但給他提供出張三的參軍證,而且還主動推送出張三在部隊的立功證、受獎證、培訓證、學歷證、成果證明以及他參軍前的畢業證、參軍后的轉業證、退伍證,和他同一批參軍的其他人的參軍證等。這就發揮出智慧檔案館(室)的優勢和作用來了,這就顯示出智慧檔案館(室)同以前兩代檔案館(室)的不同和高級來了。以前的館或室只是要什么給什么,要一只給一,而智慧檔案館(室),則是要什么都不只是給出什么,還給出其他相關的一切,即“1+N”,這個“N”,就是根據他以前的利用經歷以及這次利用的主要內容而主動推送、自動推送、無償推送的。在智慧檔案館(室)建設中,不要等全部建好了才推送,而要邊建邊推送,建多少數據推送多少數據。這樣,一方面是讓智慧檔案館(室)建設早日見成效,并爭取到更大的支持;另一方面也是通過較少數據的推送,來發現問題、吸取教訓,堵塞漏洞、取得經驗,讓數據挖掘推送軟件更好用,讓智慧檔案館(室)更智慧。

8.積極采用物聯網技術

物聯網技術可以把檔案館(室)的人、物、信息、環境等方面全部連接起來,實現自動感知和自動調控。檔案工作者不管身在何處,都可用手機掌控一切。

建設智慧檔案館(室)除了以上這些工作之外,肯定還有其他事情要做,我不再一一列舉了。

在建設智慧檔案館(室)過程中,檔案工作者要敢于想、善于想,想我們的各方面需求,并向合作方提出我們的需求。甚至可以說,在智慧檔案館(室)建設中,檔案人的主要任務就是提需求。在這個時代,只有想不到而沒有做不到的。只要我們提出需求,就會有人幫助我們實現需求。檔案服務企業也要幫助檔案人想,主動地針對他們的需要點、實用點、興奮點、難點和痛點提出解決方案。只要檔案部門與檔案服務企業同心協力,共同聯手,智慧檔案館(室)就一定能早日地、大批地并最終全部地建成。

那將是我國檔案工作、檔案事業一個新階段的開始!

那將是我這個“老”檔案人“新”夢想的實現!

 



來源:國家檔案局

聲明:版權歸原創所有,轉載此文是出于傳遞更多信息之目的。若有來源標注錯誤或侵犯了您的合法權益,請與本網聯系我們將及時更正、刪除


返回頂部

Copyright?2022 上海益波方智能科技有限公司 版權所有 網站備案:滬ICP備16001533號 | 技術支持:納網科技

主站蜘蛛池模板: 欧洲美熟女乱又伦av影片| 国产美女被遭强高潮免费网站| 乱中年女人伦av三区| 亚洲日韩欧洲乱码av夜夜摸 | 精品无码一区二区三区在线| 免费无码一区二区三区蜜桃 | 国产在线不卡一区二区三区| 精品国产天堂综合一区在线| 色视频线观看在线网站| 国产精品亚洲日韩欧美色窝窝色欲 | 大肉大捧一进一出视频| 狠狠色综合网站久久久久久久| 午夜人妻久久久久久久久| 白丝兔女郎m开腿sm调教室| 久久亚洲精品中文字幕无码| 无码人妻精品一区二区三区久久久 | 亚洲av乱码一区二区三区| 国产超碰人人模人人爽人人添 | 国产精品欧美福利久久| 成av人片一区二区三区久久| 99久久无色码中文字幕| 人妻丰满熟妇av无码区不卡| 国产成人精品优优av| 新妺妺窝人体色www| 国产精品丝袜一区二区三区| 台湾佬中文娱乐网22| 欧美黑人巨大videos精品| 成人综合伊人五月婷久久| 大胆欧美熟妇xx| 久久99精品久久久久久野外 | 久久久综合九色合综国产精品| 国产精品一久久香蕉国产线看观看| 国产精品卡一卡二卡三| 久久综合九色综合欧美婷婷| 亚洲av综合色区无码专区桃色| 好大好硬好深好爽想要寡妇| 国产无人区码卡二卡三卡| 亚洲av日韩精品久久久久久| 24小时日本在线www免费的| 中文字幕无码乱码人妻系列蜜桃| 中文字幕在线精品视频入口一区 |