2007年7月18日 星期三

數位冰河時代 -- 你的檔案還能用嗎?

The Digital Ice Age

http://www.popularmechanics.com/technology/industry/4201645.html

在我們當前的時代,文件都以位元與位元組記錄,而且不保證未來的可讀性。當科技改朝換代時,我們可能發現我們的檔案被冰凍在已經被遺忘的格式當中。我們整個時代的人類歷史將會消失不見嗎?

BY Brad Reagan / Published in the December, 2006 issue.

當航空母艦尼米茲號(USS Nimitz)開始在海上航行時,它攜帶了超過 50萬個推進、機電與其他系統的圖表檔案。因為現在是 21 世紀,所以沒有不方便的工程製圖紙捲,只有艦上電腦中的數位檔案。改變成數位科技後,能讓海軍工程師在世界任何角落存取這些圖表讓維修更加有效率。理論上。數年以前,當較舊的檔案於新版 CAD(電腦輔助設計)軟體開啟時,海軍注意到一個問題。

"我們將檔案打開時,會喊出:'哇,這不太像以前話的圖,'" Norfolk 海軍造船廠航空母艦規劃工場部門的頭頭 Brad Cumming 表示。

這種改變有點微妙 -- 破折號變成了虛線或細微的尺寸改變 -- 不過足以引起海軍工程師的憂慮。即便是最細微的差異,都對於一艘以二具核子反應器為動力,並且滿載達 85 架飛機的船隻來說,都有可能危及任務。

恢復數位檔案不只是美國海軍的挑戰。事實上,資料遺失或毀損所造成的威脅,每個倚賴數位媒介來儲存資料的人都會面對 -- 而且在今日,幾乎是每個人了。數位資訊的創造與儲存是如此簡便,我們自然認為,在未來它將能很容易的,很精確的被保存。在未來沒有一樣能夠成真。事實上,我們的數位資訊 -- 從我們所愛之人的照片到海軍的圖表中的每樣東西 -- 都處於降級(degrading)的風險中,變成無法讀取或全然消失無蹤。

這個問題愈來愈明顯,而一般公民都無法察覺。它會在我們的硬碟掛掉或我們的新電腦沒有軟碟機,或我們線上 e-mail 服務關門大吉並且將我們的通訊郵件一並帶走時收成。我們會認為類型的資料喪失情節是一場個人大災難。浩瀚的文件(writ large),它們是症候逐漸危及的一群。如我們用來創造與儲存資訊的軟硬體屆時不在可靠,那麼我們用那些資訊打造的每樣東西都岌岌可危了。

龐大的政府與學術研究所在數年前開始著手對付資料喪失的問題,迄今只有少數實在的進展。此領域的專家同意,如果一個解決辦法不趕快研究出來,我們可能在歷史長流中留下一抹空白。"這段時期可以想見會被丟失,"

Jeff Rothenberg 說,Rand Corp. 一位電腦科學家,他精通(studied)數位典藏(digital preservation)。

在我們大部分的過去,替後代保存資訊,大部分都是將照片、書信或其他文件存放於一個安全的地方。內戰之後的個人帳單至今依然可以被讀取,因為人們費盡心力來保存書信,不過美國軍人從伊拉克前線寄到家中的幾百萬封e-mail 當中有多少能夠在 100 年後被讀取呢?

數位時代諷刺的地方是歸檔已經變成一種比過去更複雜的程序了。你不只是要保護持有你資訊的物理性磁碟、磁帶與驅動器,你還必須確保這些媒介能與未來的軟硬體相容。"大部分的人都無法辨識以某種格式編碼的數位東西,那需要軟體以人類可以感知的形式來呈現(render)它," Rothenberg 說。"那些知道如何呈現這些位元的軟體逐漸被淘汰。而跑它們的電腦也逐漸被過時。"

例如,1986 年,BBC 編輯了環視中世紀英格蘭生活的《征服者威廉的末日審判書(William the Conqueror's Domesday Book)》一部現代的、互動式的版本。有超過 100 萬人替這本新「書」提交照片、撰寫描述與剪輯短片。它被儲存在雷射光碟上 -- 在那時被認為是不會毀滅的 -- 所以未來的學生與學者可以習知 20 世紀的生活。

但是 15 年後,英國官員發現在碟片上的資訊差不多無法被讀取 -- 不是因為碟片毀損,而是因為它不再與現代的電腦系統相容。相較之下,原本的《末日審判書》,1086 年寫在羊皮紙上,仍位在英格蘭 Kew 的國家檔案館中處於可閱讀的狀態下。(多媒體的版本最後被搶救回來。)

電腦標準的改變並非數位資料的唯一威脅。在 2004 年,Miami-Dade 郡宣佈,因為嚴重的電腦當機,它已經丟失了 2002 年大選幾乎所有電子投票的記錄 -- 提醒了我們電子記錄許多不足之處 -- 保存可歸因於日常設備的失誤(詳見原網站的 "Preserving Your Data" 專欄)。此外,軟體公司也有可能關門大吉,讓它們專有的程式碼隨之而逝。在 2001 年,線上相片儲存網站 PhotoPoint 關閉,而數百人喪失了他們儲存載網站上的照片。

不過資料遺失,不只是會發生在一顆掛掉的硬碟或沒有機器能夠播放的碟片上。一個數位檔案只是一長串二進位碼。不像書信或是相片,它的內容無法直接呈現在終端使用者面前。為了要看見一張被儲存為 JPEG 檔的照片或是閱讀一封以文字處理程式編輯的信,我們需要軟體幫忙將這些編碼翻譯給我們。

根據 Software and Information Industry Association,軟體應用程式平均每隔 18 個月到 2 年就會更新,而新版本通常不會相容於先前的版本。這對於尼米茲號而言是個問題,正如同它也可能會替你製造麻煩,如果有問題的檔案,你醫療記錄的話。

同樣地,法律事務所發現 metadata -- 關於資料的資料,諸如這個檔案何時被建立 -- 在檔案被拷貝時通常無法精確的被轉移。例如:磁性儲存媒介,如硬碟,允許三部份的日期儲存系統(建立/存取/修改),而在光學媒介,如 CD-R 等等,只允許一種日期,這對於法律訴訟是個難題,因為律師必須要建立案件中關鍵事件的年代表。"我幾乎在每一個單一個案中都會遇到," Craig Ball,一位電腦鑑識專家,他勸告律師事務所。"在許多程度上,那是一個相當複雜的問題。我們失去很多!"(譯註:比較新式的壓縮軟體可以保存這些資料,另外,如果是電腦鑑識用途,需要更特殊的軟體才有辦法複製保存電腦系統當中的精確日期。)

一如 Richard Pearce-Moses,Society of American Archivists 的前任總裁,所表達的,"我們可以讓 0 與 1 長存,但我們能理解它嗎?"

作者最近旅行到華盛頓特區,會見國家檔案館電子記錄檔案(ERA)的頭頭Ken Thibodeau。國家檔案館對於保存所有與歷史相關的文件與聯邦政府所產生的資料 -- 來自於白宮的 e-mail 到核廢料儲存地點的每樣東西 -- 這件苦差事感到緊張。10 年前,Thibodeau 最大的顧慮是如何處理柯林頓政府送來歸檔的 3200 萬封 e-mail。然而這只是個開始。預計布希政府會在2008 年時產生 1 億封 e-mail。Thibodeau 長久以來體認到光是將資料拷貝到磁帶上 -- 先前將電子記錄歸檔的方式 -- 不足以應付數位時代,而且與接踵而來如雪崩般更加複雜的數位檔案相較,這只不過是涓涓細流。

"問題是我們所建造的每樣東西,不管它是高速公路、隧道、船隻或飛機,都是用電腦設計的," Thibodeau 說。"送來歸檔的電子記錄比起紙張記錄要多上 100 倍。我們不知道要如何避免丟失大部分在今日所建立的數位資訊。"

國家檔案館不只是要將極大量的資料進行分類,它也要找到一種方式讓那些資料可以被理解。Thibodeau 希望開發一種系統,那可以保存任何種類的文件 -- 由任何應用軟體與電腦平台所建立,並且在任何數位媒介上傳遞 --只要美國依然是個共和政體。牽連的問題還更多,這些檔案需要能夠被搜尋。當 Thibodeau 向政府研究實驗室一位的頭頭說明他的任務時,那個人回答,"你的問題太大了,要去嘗試以及解決這個問題可能是一件很蠢的事。"

去年,國家檔案館授與 Lockheed Martin 3080 萬美金的合約,來開發此系統。"我們認為這是資訊時代一種開創性的努力," Clyde Relick,該計畫的計畫主持人表示。

迄今,ERA 目前已經確認出他們需要涵括的、超過 4500 種的檔案格式。每一種檔案格式基本上需要一種獨立的解決方案。哪一種資訊需要被保存?這些資訊應如何呈現?

一個相對簡單的例子為例,讓我們看看來自於某管控局處頭頭的 e-mail。如果信件是純文字,它的解決方法很簡單。但如果有附件呢?是哪一種檔案被夾帶?如果這個附件是一份試算表,那麼這張試算表的行為需要保留嗎?換句話說,未來的一代能夠執行此一格式並且玩弄這些資料是否事關緊要?

"當我們擁有的是紙張文件時,這看起來不像是個挑戰," Relick 說。更複雜的檔案格式,例如 NASA 的虛擬實境訓練程式,則需要更複雜的解決方案。ERA 在某些錯綜複雜的挑戰中,與一票研究夥伴一起工作,包括聖地牙哥超級電腦中心以及 NSF。

Lockheed 所建立的主要是一套 "遷移" 系統,在其中檔案被轉換成具有彈性的格式,例如:XML,所以這些檔案可以被未來的科技所存取。這個點子可以在拷貝時不會喪失資料原本的特徵。

並非每一位都同意 Lockheed 的方法。以 Rand Corp., 的 Rothenberg 為例,相信採用一種 "模擬" 的策略可能更加恰當。模擬允許現代電腦模仿較老的電腦,所以它能夠執行某些程式。今日所使用的模擬程式能夠讀取專為Sony PlayStation 2 或 Microsoft Xbox 設計的電玩,並且在 PC 上玩。

"對我而言,遷移就等於扔掉原物," Rothenberg 說。"它甚至沒有試著要保存原物。你所終結的是某人對於原物有多重要的點子。(What you end up with is somebody's idea about what was important about the original.)"

Relick 說模擬涉及的成本與科技努力對於像 ERA 這種規模的計畫是不可行的。此外,他還提到那些檔案能讓任何人透過瀏覽器來存取,而且模擬在使用者的軟硬體搭配有無限多種的情況下,會變得相當困難。

Lockheed 團隊的目標是讓 ERA 於 2007 年 9 月能有最初步的運作能力,但預算縮減很可能會延遲程式的搜尋功能。

資料危機決不限於國家檔案館,或是軍方部門。國會圖書館也位在它自己的典藏計畫當中,還有許多大學也正忙於建立能夠留存不同學術研究的系統。

但是為政府與學界開發的計畫並不能夠幫助個人電腦使用者找到遺失的e-mail。某些專家相信,這是單一市場力量的結果:消費者必須對數位典藏沒有太多關注,而企業則必須在事業中符合消費者的需求。其他人則說企業是銷售更多新產品唯一的顧慮。

"他們的興趣,對我而言,是隨時創造不相容,而非相容," Rothenberg 說,"冷眼旁觀,他們沒有太多動機要對自己強加相容性的重擔,因為這樣做只會阻止消費者『升級』。"

然而,這裡已經有受到鼓勵的發展。在 2005 年末,微軟宣佈將開放它自己Office suite 的檔案格式,包括 Word 與 Excel 給競爭對手,以便讓Office 被授證為一種國際標準。藉由將格式的專有控制割讓給第三方開發者,微軟大大的增加這些格式將會被未來一代存取的可能性。

在此同時,International Organization for Standardization 最近認可Adobe Systems 熱門的 Portable Document Format (PDF) 的修改版本,專門用於長期歸檔。它稱為 PDF/A。在本質上,PDF/A 保留了文件當中可以被列印的每樣東西,卻同時將某些在短期之內或許相當有用,但是就長期而言卻不確定的功能排除在外。例如,此心格時不允許嵌入連結到外部應用程式,因為那些程式可能遭到淘汰,而且它也不允許密碼,因為在未來可能會忘記。"它全都是為了要能創造一個可靠的呈現," Melonie Warfel,Adobe 的世界標準主管表示。Adobe 現在也正在開發工程文件與數位影像的歸檔標準。

即使歷史是一份指南 -- 而那,畢竟是所保留歷史的一點 -- 我們知道未來將提供我們無法想像,以不同方式操作數位資訊的方法。目前的手法不過是繼續讓大家保持前進,而不要留下太多東西在過去。

"那已經超越了 '重要記錄' 這種概念 -- 那已經變成對我們而言是很重要的事," Warfel 說,她是兩位孩子的媽。"我媽有個裝滿照片的鞋盒,但我們不在這麼做。我有裝滿照片的硬碟。"


* 好公民不助長非法拷貝 -- 請停止散佈 .doc 檔
http://www.cyut.edu.tw/~ckhung/a/c041.php

* PDF/A, PDF for Long-term Preservation
http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml

* PREMIS: PREservation Metadata Implementation Strategies [OCLC - Projects]
http://www.oclc.org/asiapacific/zhtw/research/projects/pmwg/


掃描全世界的書!
史上最大圖書館 Google 化夢想為行動
Google 線上書庫 微軟雅虎踢館
國家圖書館將設歐盟資訊中心
英國千年史 盡在國家檔案中心
台灣數位典藏創意產業紐約展出研發成果
早期臺灣史料 數位檔案上網
數位典藏 文史瀚海任挖寶
數位典藏計畫 下個五年怎麼走?

微軟 PDF-killer XPS 將朝標準邁進
微軟 Office 12 將支援原生 PDF
Open Document通過成為國際標準
微軟展示 JPEG 的競爭對手

數位出版 我落後了
「無紙化」閱讀 面臨關鍵障礙