古代史料数字化诸问题初步研究

 王志轩

 

提要:随着信息技术的进步,史料数字化已成潮流。本文把史料分为历史文献和史迹遗存两类进行研究,提出了建立对应的数字图书馆和数字博物馆的解决方案,并对实现这一方案的具体技术从理论到实践作了归纳和总结。

关键词:史料;数字化;数字图书馆;数字博物馆;虚拟现实

缘起

史料包括历史文献与史迹遗存,是史学研究的基础。中国历史悠久,历代文献遗物浩如烟海,近现代又有大批新史料发现与累积。史学界对史料的整理和研究历来非常重视。王国维使用两重证据法,“取地下之实物与纸上之遗书辨证,取异族之故书与吾国之故籍互相补证,取外来之观念与固有之材料互相参证”,进行古史新证,解决了许多重大史学问题。顾颉刚等“古史辨”派以疑古辨伪为宗旨,进行了系统的古史辨伪,“古史辨”作为对“古书”与“古事”的—种史料考订工作,颇有意义。[1]以傅斯年为代表的史料学派提出了“史学即是史料学”的观点,傅氏认为:“只要把材料整理好,则事实自然显明了。一分材料出一分货,十分材料出十分货,没有材料便不出货”,他们彻底从故纸堆中脱身而出,宣称不读书只找材料,“上穷碧落下黄泉,动手动脚找东西”,[2]在考古等领域很快取得举世瞩目的成绩,一举超越前人的成就。陈寅恪和陈垣等诸先生也都十分重视史料,把考实作为治史方法的前提。郭沫若、吕振羽、翦伯赞、侯外庐、范文澜等先生高举马克思主义史学观之利器,“将历来为封建学者所湮没、改造、曲解的古代史料,加以重新辨别、整理和阐发”,开辟了中国历史研究的新途径。
  人类已经进入信息时代,我们现在不仅面临着用新技术来整理旧史料的问题,而且随着考古新发现的不断涌现和科技的发展,史料的容量和形式急剧膨胀。以何种方法处理、存储史料,并且能够让学者从中方便迅速地检索和得到所需的信息,是当前史料学的一个大问题。
  数字化是史料处理的必由之路。第一,把各种史料统一为计算机数据,方便存储和检索;第二,使史料的物理体积大大缩小,方便携带;第三,可以低成本无差错拷贝,方便传播和普及。目前,不论是印刷文档、手写稿,还是电子文档、音像文件、甚至于遗址与文物,越来越多的史料逐渐被数字化,出现了数据仓库(Data warehousing)、数据集市(Data mart)、数据采集(Data mining)等新概念和信息数字化处理方法,逐步形成了大数据量存储和管理模式。全球范围内,建立史料数据库逐步成为潮流。联合国推动Memory of the World计划以挽救某些濒临灭绝的人类文明,西方各国也无不积极推动数字图书馆、数字博物馆或数字典藏建设,如:美国有国会图书馆的American Memory计划和六所大学所主导的数字图书馆计划等;加拿大有国家数字典藏计划(Canada’s National Digital Collections);日本和IBM合作的数字博物馆计划;大英图书馆的敦煌数据数字化计划等,不胜枚举。自上世纪90年代中期以来,因特网技术对整个社会的影响程度全面加深,信息科技已然启开了社会全面急速变迁的序幕。借助网络之一利器,分散在世界各地的史料数据资源得以有效整合,因特网已经成为一个超大型的史料数据库。但是,从总体来看,史料数字化的研究和实践才刚刚起步,还处于探索阶段,因此,对史料数字化进行整体的研究是很有必要的。
  下面,本文把史料按照其性质分为两类进行讨论,其一为人类精神产品类史料——文献;其二为物质产品类史料——文物。

历史文献的数字化

历史文献作为人类精神产品,具有可复制性和可移植性,并且必须依托载体而存在。国家标准局批准公布的GB4894—85《情报与文献工作词汇——基本术语》定义道:“文献是记录有知识的一切载体”。根据这一标准定义,历史文献就是以文本、图形、符号、音像、软件等各种形式固化在一定物质载体上的历史资料,其物质载体为:纸、胶片、磁带、光盘等。历史文献数字化的目标是将原来在各种物理载体上存储的信息,统一转变为最基本的比特,用0和1来表示,成为计算机可以识别的数据。
  历史文献数字化的终极形式为数字图书馆的出现。所谓数字图书馆,就是利用现代信息技术对有价值的图像、文本、语音、音响、影像、影视、软件和科学数据库等多媒体信息进行收集,组织规范性的加工和压缩处理,使其转化为数字信息,然后通过计算机技术进行高质量保存和管理,实施知识增值,并通过网络通讯技术进行高效、经济地传播、接收,使用户可以在任何时间、任何地点,都能从网上得到各种服务,为公民的终身学习机会做出贡献,成为国家的知识基础设施。[3]
  建立数字图书馆的关键在于以统一的标准和规范为基础,表现为同一类型文件格式的统一。当前,数字图片格式主要有BMP、GIF、JPG、PCX、TGA、TIF等;数字音频格式有WAV、MP3、MIDI等;数字视频格式有mpg、mov、avi、rm等;网页格式有html, vrml,xml,sgml等;数据库有Oracle, SQL Server, Sybase, DB2, Informix, Access等。文献数字化的过程中一般采取最通用的文件格式,这样既便于为最多的人服务,又便于数据的升级。数字图书实现形式主要有两种:一是采用扫描录入方式将书籍资料按原貌逐页存储为图象文件;二是以文本方式存储文献内容,辅之以全文检索系统构成全文检索数据库。前一种方式适合古籍善本和以往出版图书的数字化,后一种适合新出版图书的数字化。
  建立数字图书馆的设想首先由美国人提出,1994年6月,美国召开了“第一届数字图书馆理论与实践年会”。同年9月,美国国家科学基金会(NSF)、国家宇航局(NASA)和国防部高级研究署(AKPA)联合公布了一项为期4年、投入2440万美元的《数字图书馆启动计划》(DLI ,Digital Library Initiative),在斯坦福大学、密西根大学、伊利诺斯大学、卡耐基-梅隆大学、加州大学伯克利分校和圣·巴巴拉分校等6所高校进行数字图书馆的分项研究。同年10月,美国国会图书馆推出数字化项目,领导与协调全国的公共图书馆、研究图书馆,将其收藏的图书、绘画、手稿、照片等转换成高清晰度的数字化图像并存储起来,通过互联网供公众利用。继美国之后,英国、法国、日本、德国等西方发达国家以及亚洲的新加坡、韩国也先后提出各自的数字图书馆计划,投入巨额实施资金。
  我国数字图书馆建设开始于1997年,北京图书馆作为国家图书馆,经国家计委批准建立了“中国试验型数字图书馆”项目,并开展了与此有关的专题科研。同年12月,我国民营计算机高科技企业北京世纪超星信息技术有限公司将其远程图书浏览器安装到瑞得在线网站上,创建了国内首家以图像存储为主的数字图书馆——超星数字图书馆,此后,国家连续实施了“中国数字图书馆工程”和“中国数字图书馆示范工程”,国内各大图书馆和高校纷纷跟进,掀起了一股数字化潮流。据不完全统计,目前国内的中文数字图书馆已达数百家之多,以学术专业书籍为主要内容的超星数字图书馆的数字图书已超过到40万种,中国数字图书馆也已达20万种以上。此外,书生之家“中国图书网”和方正apabi数字图书馆也都非常有实力。
  目前,我国科技期刊的全文数据库主要有“中国期刊网”、“万方数字化期刊网”和“维普中文科技期刊全文数据库”等,以中国期刊网为例,收有几年来5300种期刊的全部文章,重要期刊几乎被网罗殆尽。
  除此之外,因特网上一些小型的数字书库更是数不胜数,如:香港中文大学中国文化研究所“华夏文库”及“古文献资料库”;台湾的汉学研究中心典藏目录及数据库,包括典藏国际汉学博士论文摘要资料库、明人文集联合目录及篇目索引资料库、两汉诸子研究论著目录资料库、经学研究论著目录资料库、敦煌学研究论著目录资料库、外文期刊汉学论著目次资料库、国际汉学资源机构录资料库,可进行资料库整合查询;北京书同文数字化技术有限公司的《四库全书》、《四部丛刊》、《康熙字典》的电子版等等。[4]千万不要小看这些局部的文献数字化工作,集腋成裘,聚沙成塔,这些数据经因特网而整合为一体,完全不受其物理距离的影响,从长远看,分散的学术单位与个学者是文献数字化的真正主力军,整个因特网,就是一个大的数字图书馆集合。

文物史料的数字化

文物为人类有形的史迹遗存,它具有不可复制性和唯一性。根据中华人民共和国文物保护法(修正本)第二条之规定,文物包括以下内容:(一)具有历史、艺术、科学价值的古文化遗址、古墓葬、古建筑、石窟寺和石刻;(二)与重大历史事件、革命运动和著名人物有关的,具有重要纪念意义、教育意义和史料价值的建筑物、遗址、纪念物;(三)历史上各时代珍贵的艺术品、工艺美术品;(四)重要的革命文献资料以及具有历史、艺术、科学价值的手稿、古旧图书资料等;(五)反映历史上各时代、各民族社会制度、社会生产、社会生活的代表性实物。具有科学价值的古脊椎动物化石和古人类化石同文物一样受国家的保护。需要注意的是第四款规定的革命文献资料以及手稿、古旧图书资料等为文物与本文对史料的分类并不矛盾,这类文物其内容为文献,其物质载体为文物。
  文物作为史料的价值,在于其中包含的历史信息。所以对文物信息的撷取与整理一直受到人们的重视。如对甲骨文的墨拓、整理而成的《甲骨文合集》,如对青铜器进行整理而成的《两周金文辞大系图录考释》,这些信息撷取成果目前大多以文献的形式而存在。现代以来,经科学考古而发现的遗址和遗物都有详细的考古报告。报告中的绘图形式有平面图、剖面图、结构图、局部图、分解图、透视图以及器物绘画等;照相有地貌全景、发掘区全景、不同角度和感光的遗物特写,其他如专业技术鉴定报告、文物修复与模型制作、拓印图片等等,有的还附有航拍图片和电影、录像。考古报告是对文物环境、外观、结构、尺寸、颜色、纹理、成份、气味等信息的全面撷取。文物的数字化即为文物信息的数字化。
  文物数字化的终极形式为数字化博物馆,最新技术为虚拟现实(virtual reality)。
  虚拟现实技术是上世纪90年代以来为科学界和工程界所广泛关注的技术。它利用计算机生成一种模拟的实物与环境,通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接自然交互。虚拟现实技术的产生首先源于军事训练的需要,现在已经广泛应用于航空、航海、医学训练,建筑和环境规划,影视制作,甚至于核试验的虚拟。对大众来说,最切身的感受是虚拟现实技术使我们在电影侏罗纪公园中看到了栩栩如生的恐龙。现在虚拟现实技术已经做到了网络的分布式互动,支持多人实时通过网络进行交互活动,每个用户在一个虚拟现实环境中,通过计算机与其它用户进行交互动作,并共享信息。我们可以在许多网吧中看到玩“大地勇士”游戏的青年,他们同分布在世界各地的人们在虚拟的“埃及金字塔”中进行激烈枪战。
  文物的虚拟现实只是静态实物的虚拟,因此,在技术实现上要容易得多,我们把所有依据科学考古而得到的文物信息输入计算机,就能借助虚拟现实生成程序来“制造”出三维的虚拟现实文物,借助这一技术,许多不易接触、难得一见的历史文物可以被普通学者摩挲于股掌之间。另外,使用360度全景摄影技术拍摄的高质量图像也可以生成逼真的虚拟情景,从而使得用户可以使用普遍微机通过鼠标和键盘真实的感受到和虚拟现实一样效果,不过它的人机交互性能要差许多。在日本早稻田大学网站,我们可以看到该校建筑学系编纂的从1996年到2002年对埃及Pyramids of Dahshur的8次考古发掘报告,其中包括了用vrml技术制作的虚拟现实墓室结构和用QuickTimeVR Panorama全景摄影技术制作的金字塔外部环境。
  我国的数字博物馆建设和文物数字化工作已经开始起步,故宫博物院是具有600年历史、8000座殿宇楼阁、百万件文物的我国最大博物馆,其网站于2001年7月16日开通,最初只收录了各类图片4000余张,实现了文物影像的细节浏览和虚拟展厅的360度旋转展示[5]。到了2002年7月30日,由中国故宫博物院和日本凸版印刷公司共同建立的故宫文化遗产数字化应用研究所召开记者招待会,宣布以故宫太和殿为中心的紫禁城虚拟现实工程目前进展顺利[6]。这说明故宫文物的数字化工作已经进入了虚拟现实的实质性阶段。北京四方台数字技术有限公司使用360度全景摄影技术,已经制作了所有中国世界遗产的虚拟实景,此外他们还制作了中国古城镇民居、中国历史文化名城、寺庙及宗教建筑等虚拟实景专题。台湾今年启动了“数位典藏国家型科技计划”,其专题内容包括:“台湾建筑史”、“不朽的殿堂—汉代的墓葬与文化”、“玄奘西域行”、“商王大墓重现”、“火器与明清战争”等等,在实施过程中,虚拟现实就是其中的一种重要技术手段[7]。使用虚拟现实技术还可以重现已经不存在的历史人物、建筑、地理环境等。今年1月,中国刑警学院法医系教授赵成文,依据古长沙国丞相夫人辛追颅骨的X光片、出土时拍摄的面部照片,以及长沙市马王堆汉墓帛画和相关历史文献资料,使用自己研制的警星CCK-3型人像模拟系统成功地复原了这一2000多年前的人物相貌,虽然这一技术还有待完善,但是不能否认它很好的发展前景。总体看来,数字博物馆的建设正在受到人们的重视,而虚拟现实技术也处于发展与普及过程之中。

迎接史料数字化时代

要之,无论文献数字化和文物数字化,归根结底,就是把史料统一为计算机数据,这些数据经互联网而整合成为一个大的史料数据库。
  在信息技术高速发展的今天,史料学正在孕育并发生着重大的变革。新史料学有四个基本特点:一、文献多媒体化;二、文物虚拟现实化;三、史料极大丰富;四、计算机网络检索技术成为史料学的命脉。史料数字化的时代已经到来。让我们张开双臂去迎接她吧! 

参考文献:
[1]尹达.中国史学发展史[M].郑州:中州古籍出版社,1985.
[2]傅斯年.历史语言研究所工作之旨趣[A].刘梦溪.中国现代学术经典傅斯年卷[C].石家庄:河北教育出版社,1996.
[3]
2002年数字图书馆国际论坛及工程项目洽谈会网站.数字图书馆的历史与演变[EB/OL].
http://www.dlibforum.com/information1.htm

[4]吴宣德.网路数字化文献资源[EB/OL].
http://myqf.diy.163.com/

[5]苏敏.故宫走进数字时代[N].中国青年报,2001-7-17
[6]
张焕利.文化遗产数字化应用 故宫虚拟工程进展顺利[DB/OL].
http://202.84.17.73:7777/Detail.wct?RecID=1&SelectID=1&ChannelID=4255&Page=1

[7] 数位典藏国家型科技计划简介[EB/OL].
http://www.ndap.org.tw/

 

2002年12月4日加入