• 한겨레21 ·
  • 씨네21 ·
  • 이코노미인사이트 ·
  • 하니누리
표지이야기

디지털 문서는 '사이버 골동품'?

434
등록 : 2002-11-13 00:00 수정 :

크게 작게

다양한 저장매체에 담은 자료들 해독 곤란… 원래의 컴퓨터를 당대의 기술로 재현

사진/ 디지털 저장매체에 정보를 보관해도 영구적 활용은 어렵다. CD-ROM과 디스켓 등은 일정한 보관수명이 있다.
국제통화기금(IMF) 체제 아래서 정부는 고등실업자 구제 차원으로 정부 문서기록 작업자를 뽑은 일이 있었다. 내용은 정부 문서보관소에 저장된 각종 문헌을 디지털화하기 위한 작업으로 오래된 종이문서를 모두 컴퓨터 파일로 새로 입력해 저장하는 것이었다. 신청 가능한 사람은 한글워드를 다룰 줄 알고 한자와 한문 해독이 가능한 사람으로 제한했다. 고등실업자의 생계를 돕기 위한 적절한 방책이지만 좀 걱정스러운 면이 있었다. 그것은 과연 가장 보편적으로 쓰이는 아래한글 워드프로세서로 기록해둔 매체가 얼마나 오래갈 것인가 하는 것이다.

한글 워드 문서 50여년 뒤에 볼 수 있나

디지털 매체를 기록하는 데는 두 가지 사안이 있다. 하나는 기록물을 담을 물리적인 매체고, 다른 하나는 논리적인 기록양식이다. 쉽게 말하면 정부의 문서보관소에서 어떤 매체에 기록물을 담을 것인지를 결정해야 한다. 모든 문서를 입력해 이를 다시 종이에 찍어 이전과 같이 저장했다가는 별로 실익이 없을 것이다. 자기테이프나 디스켓, CD-ROM 또는 광CD에 저장해두는 방법이 있다. 이 역시 생각만큼 오래 보존된다는 보장은 없다. 불행하게도 CD-ROM은 대략 50년을 기준으로 그 이상이면 겉면에 기록해둔 물질의 박리현상이 일어날 수 있다.


따라서 CD-ROM은 운이 좋으면 100년까지 갈 수 있지만 50년 이상 보관하려면 권장할 만한 매체가 아니다. 디스켓은 20년 이상 보관하기 힘든 것으로 알려졌다. 자기테이프 역시 CD-ROM과 비슷한 정도의 수명이 있다고 보면 된다. 역시 비용과 용적으로 따지지 않으면 종이가 가장 적절하지만 종이는 더 이상 기록물이 되기에는 너무 많은 비용이 든다. 더구나 CD-ROM과 같은 컴퓨터 기록매체는 특성상 조그마한 손상(예를 들면 첫머리에 있는 파일 테이블)이 전체를 복구 불능으로 만든다는 점에서 종이매체보다 민감한 매체다.

또 고려해야 할 사안은 기록물의 논리성에 관한 것이다. 풀어서 말하면 100년 뒤에 문서보관소 기록문서를 만들 때 사용한 한글 프로그램이 있는가 하는 문제다. 컴퓨터 기록물은 일반적인 종이나 돌에 새겨 사람이 눈으로 읽어내는 것과는 다르게 반드시 그것을 읽어내는 프로그램이 있어야 한다. 그러면 문서를 만들 때 사용한 프로그램을 어딘가 다른 CD-ROM에 몽땅 담아두면 되지 않을까 하지만 이도 쉬운 문제는 아니다. 앞에서 말한 한글 프로그램의 예를 들면 그 프로그램을 구동시킬 수 있는 윈도 운영체제 프로그램이 있어야 한다. 뿐만이 아니라 윈도를 구동시킬 펜티엄칩의 컴퓨터가 있어야 한다. 그러나 이렇게 급변하는 소프트웨어 환경에서 관련된 모든 소프트웨어를 보관하고 이에 부가된 하드웨어를 확보하는 일은 매우 어렵다.

미국 뉴욕시에서는 1960년에 구식 컴퓨터로 만든 방대한 데이터를 지금도 읽어낼 수 없어 그냥 자기테이프에 담아 놓았다. 또 1970년도 미 항공우주국(NASA)에서 조사해 기록해둔 많은 천체우주 관련 데이터를 아직도 활용하지 못하고 있다. 테이프에는 기록돼 있지만 당시 그것을 기록해둔 프로그램이 없으며, 그 프로그램을 어떤 형식으로 기록했는지에 대한 자료가 없어 전혀 읽어내지 못하는 것이다. 이런 일은 이제 시작에 지나지 않는다. 일반 컴퓨터 사용자들도 5년 전에 구입한 프로그램으로 작성한 워드파일을 지금의 윈도 XP에서 출력하지 못해 곤욕을 치른 경험이 있을 것이다.

흥미롭게도 1980년 초에 널리 알려진 오락실용 게임만을 수집하는 사람이 있다. 이 사람은 게임뿐 아니라 당시 사용한 각종 PC들까지 수집해 전시회를 열어 30~40대, 즉 그 당시 그러한 게임을 한 사람들로부터 많은 관심은 끄는 데 성공했다. 특히 이런 구식 디지털 골동품이 있으면 지나간 형태의 파일을 읽어내는 일은 매우 요긴하다. 예컨대 지금부터 20년 전에 작성한 논문이 담긴 디스크를 구해서 읽어보는 건 쉬운 일이 아니다. 일단 커다란 모양의 6인치 플로피디스크를 읽을 수 있는 PC가 없어 이 일은 첫 단계부터 불가능했다. 다행히 그것을 읽는다고 해도 그 문서를 작성한 프로그램이 없어 아마 읽을 수 없을 것이다.

그렇다면 이런 문제에 어떤 식으로든 대응해야 하는데 과연 어떤 방책이 있을까. 가장 단순한 방식은 데이터의 이동(migration)이다. 대부분 상업용 소프트웨어들은 이전 판에서 사용한 데이터는 대부분 공유하도록 만들기 때문에 새로운 판의 워드가 나올 때마다 모든 파일을 새롭게 읽어 새 워드 형식으로 저장한다. 이렇게 하면 늘 지금의 워드로 읽을 수 있는 가장 싱싱한() 형식의 파일을 가지고 있게 된다.

문제는 이게 간단한 개인 차원에서도 어렵지만 수천만 단위의 문서를 가지고 있는 정부 단위에서 시행하기에는 너무도 번거롭고 비용이 많이 든다는 단점이 있다. 특히 판올리기(virsion up)를 마케팅 전략으로 삼는 기업체를 상대로 이런 전략은 매우 불리하다. 다음은 에뮬레이션(emulation)이라는 방법이다. 이것은 이전의 하드웨어나 지금의 운영체제에서 소프트웨어적으로 흉내를 내보는 것이다. 지금의 리눅스(LINUX) 프로그램 가운데는 윈도 프로그램을 구동시켜주는 프로그램이 있는데 바로 이러한 것이다.

100년이 지나 지금의 펜티엄 PC는 없어지겠지만 펜티엄 PC와 같은 환경을 소프트웨어적으로 가상 실행시켜주는 프로그램이 충분히 나올 가능성이 있다. 문제는 이러한 방법은 비슷하게는 동작을 시켜주지만 원본과 똑같은 하드웨어 환경을 제공해주지는 못한다. 속도가 현저히 떨어지는 것은 물론이고, 하드웨어에 종속적인 이미지나 소리 등과 같은 특수효과는 모두 사라지는 것이 보통이다. 또한 이러한 에뮬레이션 프로그램을 번번이 작성해야 하는 어려움도 있다.

또 다른 방법은 캡슐화(encapsulation)하는 것인데 이는 보관해야 할 기록물을 저장하되 그것을 해독할 수 있는 다음 단계의 소프트웨어는 기계에 종속적이지 않은 보통의 일반 종이에 기록한다는 것이다. 예컨대 어떤 한 워드파일을 CD-ROM에 기록한 뒤 그 CD-ROM을 읽는 프로그램을 또 다른 CD-ROM에 기록하면 그러한 CD를 읽지 못하는 새로운 시스템이 되면 모두 무용지물이 된다. 따라서 데이터는 CD에 기록하되, 그것을 읽는 방법은 일반적인 보통 매체에 기록한다. 첫 비트는 무엇을 뜻하는 것이고, 그 다음은 무엇이며. 이런 식이라면 나중에 이 문서를 기준으로 문제의 내용을 읽을 수 있는 프로그램을 미래의 컴퓨터에서 작성할 수 있다.

범용가상컴퓨터로 오래된 문서 해독

이 방법의 단점은 전통적 매체에 기록할 내용이 많으면 곤란하다는 것이다. 최근에 소개된 가장 그럴듯한 방법은 아주 작고 간단한 가상 컴퓨터를 이용하는 것이다. 이 컴퓨터는 설계도면 두세장으로 모두 그려낼 수 있을 정도의 간단한 기능만 있다. 따라서 지구문명이 어떻게 변하든 컴퓨터의 하드웨어나 소프트웨어 환경이 어떻게 변하든 가상 컴퓨터를 당대 기술로는 쉽게 만들 수 있다. 이 컴퓨터의 내용을 모든 문서파일로 저장하면 될 것이다. 즉, 어떤 시대에 가서도 원래의 사양대로 컴퓨터를 만들 수 있도록 하면 모든 문서를 당대에 쓰이는 문서로 고칠 수 있게 된다.

최근 범용가상컴퓨터(Universal Virtual Computer)라는 방법론을 매우 활발히 연구하고 있다. 현재 이 방식을 이용한 정부 문서 보관작업이 미국에서 연구 중에 있다. IBM연구소의 레이먼드 로리(Raymond Lorie)가 제안한 가상 컴퓨터는 대략 20쪽 안팎의 종이에 설계사항을 모두 기술할 수 있을 정도로 간결하다. 이것은 몇 가지 단점이 있음에도 가장 가능성 있는 방법으로 보인다. 디지털 시대에 중요한 것은 기록하는 것뿐 아니라 기록한 방법을 기록하는 것이다.

조환규/ 부산대 교수·컴퓨터과학


좋은 언론을 향한 동행,
한겨레를 후원해 주세요
한겨레는 독자의 신뢰를 바탕으로 취재하고 보도합니다.