1. 引言
日本历来对其本国古籍数字化工作十分重视。其古籍数字化工作起步早、发展快,在实践中积累了丰硕的成果。国文学研究资料馆是日本1972年建立的日本文学综合性基础研究机构。该馆大规模收藏了日本各地的日本文学及相关资料,提供给各领域的研究者使用,同时致力于推进以这些资料为基础的共同研究的开展。国文学研究资料馆十分重视传统文化和珍贵典籍的数字化,在日本的古籍数字化实践中发挥了重要作用。夏有军梳理了公共图书馆古籍数字化建设的内容和逻辑框架,提出公共图书馆古籍数字化建设策略,构建全场景推广古籍的全媒体矩阵[1]。张梦笛从智慧图书馆建设背景入手,分析我国古籍数字化工作现状,提出完善统筹管理机制、发布统一标准规范、创新人才培养模式、鼓励社会力量广泛参与、搭建古籍数字化应用平台、构建古籍知识服务体系等发展建议[2]。李世钰等提出包含转化、重构、应用和控制4个部分的古籍数字化建设路径,并对古籍数字化路径各部分内容进行了规划[3]。
2. 日本国文学研究资料馆古籍数字化实践的发展历程
日本国文学研究资料馆自2014年开始牵头实施“日语历史典籍国际共同研究网络构建计划(简称:历史典籍NW事业)”,自此开启了大规模的古籍数字化实践工作。2023年3月,该计划最重要的阶段性成果“国书数据库”顺利启用。该项目的后续计划“构建数据驱动下问题解决型人文学”项目也成功在文部科学省立项。2022年该馆设置了古典籍数据驱动研究中心[4],为实现数据驱动视域下的古籍国际合作研究打下坚实的基础。其古籍数字化实践的发展历程详见表1。
该馆于2006年启用的“日本古籍综合目录数据库”联合国立国会图书馆开发的“Web NDL Authorities (著者名称规范)数据库”、日本古籍资料调查记录数据库共同为用户提供一系列古籍检索服务。
2014年开始实施的“日语历史典籍国际共同研究网络构建计划”是日本文部科学省推进的“大规模学术创新促进系列项目”中唯一被立项的文科项目。该项目由国文学研究资料馆牵头,联合日本国内20
Table 1. Major events of the practice of digitizing ancient books in the National Institute
表1. 国文学研究资料馆古籍数字化实践大事记
年份 |
事件 |
1972 |
国文学研究资料馆创立。 |
1977 |
开始提供阅览服务。 |
1987 |
开始提供“微资料目录数据库”、“馆藏和古书目录数据库”的在线检索服务。 |
2006 |
启用“日本古典籍综合目录数据库”、“馆藏和古书图像数据库”。 |
2007 |
通过“微/数字资料·和古书所藏目录数据库”公开数字收集图像。 |
2011 |
将馆藏的缩微胶片进行数字化后公开。 |
2014 |
开始实施“日语历史典籍国际共同研究网络构建计划”。 |
2017 |
公开“新日本古典籍综合数据库”。 |
2023 |
日本国书数据库正式投入使用 |
所高校、国外14个研究机构以及日本多个人类文化研究机构(见表2)计划用10年时间(2014年度~2023年度)共同实现日语历史典籍资源的数字共享[5]。该项目对“日本古籍综合目录数据库”中收录的约50万件历史典籍(奈良时代至江户时代末期的日本人所著书籍)进行数字化,并统合“日本古籍综合目录数据库”,于2017年开发出“新日本古典籍综合数据库”。该数据库成为日本国内关于历史典籍学术研究最大的数据库。
Table 2. Participating institutions of the “NIJL-NW Project” [6]
表2. “日语历史典籍国际共同研究网络构建计划”参加机构[6]
日本国内20所高校 |
日本国外14个研究机构 |
日本人类文化研究机构 |
北海道大学 |
法国日本学高等研究所 |
国立历史民俗博物馆 |
东北大学 |
哥伦比亚大学 |
国立国语研究所 |
筑波大学 |
高丽大学 |
国际日本文化研究中心 |
东京大学 |
佛罗伦萨大学 |
国立民族学博物馆 |
御茶水女子大学 |
北京外国语大学 |
|
庆应义塾大学 |
莱顿大学 |
|
国学院大学 |
威尼斯国立大学 |
|
立教大学 |
那不勒斯大学 |
|
早稻田大学 |
罗马大学 |
|
名古屋大学 |
梵蒂冈国家图书馆 |
|
大阪大学 |
英属哥伦比亚大学 |
|
奈良女子大学 |
剑桥大学 |
|
京都大学 |
加利福尼亚大学伯克利分校东亚图书馆 |
|
同志社大学 |
柏林国家图书馆 |
|
关西大学 |
|
|
大谷大学 |
|
|
续表
3. 日本古籍综合目录数据库的特征及基本结构
3.1. 日本古籍综合目录数据库的特征
1) 在《国书总目录》(岩波书店出版)的基础上构建的数据库
《国书总目录》是岩波书店在1963年编辑出版的涵盖全日本所藏170余万部古籍的总目录。该目录继承了战前策划的《国书解题》的传统,在书名取法、读法等方面被日本目录界公认为是最可靠的、最具有代表性的权威典籍。该数据库收录了日本古籍综合目录《国书总目录》《古典籍总目录》(岩波书店出版)中所有的著作和责任者数据以及部分后续追加的著作和责任者数据。《国书总目录》与日本古籍综合目录数据库的发展史见表3。
Table 3. The history of “General Catalogue of National Books” and “Union Catalogue of Early Japanese Books”
表3. 《国书总目录》与《日本古籍综合目录》数据库的发展史
时间 |
事件 |
1939年 |
开始构思《岩波国书解题》、开始采集国书卡片数据 |
1957年 |
《国书总目录》开始编纂 |
1963年 |
《国书总目录》开始出版发行(~1976年。全8卷+责任者索引别册) |
1989年 |
《国书总目录》补订版出版发行 |
1990年 |
《古典籍总合目录》全3卷出版发行(日本国文学研究资料馆编纂、岩波书店出版) |
1999年 |
“国书基本数据库(著作篇)”开始启用 |
2002年 |
日本国文学研究资料馆将《国书总目录》的著作权有偿转让给岩波书店 |
2006年 |
“日本古籍综合目录数据库”开始启用 |
2) 提供古籍的书目和馆藏信息
书目和馆藏信息来源有以下三种:
① 国文学研究资料馆藏书中的古籍;
② 从其他机构出版目录中采集的目录数据;
③ 从其他机构所藏缩微胶卷资料中采集的数据。
3) 是以揭示文献目录信息为核心的数据库
3.2. 日本古籍综合目录数据库的基本结构
该数据库通过著作规范文档与链接至著作规范文档的责任者规范文档实现规范控制,数据库的核心是著作规范数据(见图1)。
通过规范控制,用户查询古籍时,可将不同题名的同一著作的书目信息同时显示出来(见图2)。特别是日本的古籍经常由于版本的不同题名有所差别,因此将不同题名的同一著作整理在一起能够极大的方便用户的使用。
Figure 1. Basic structure of the union catalogue of early Japanese books
图1. 日本古籍综合目录数据库的基本结构图
Figure 2. The example of the necessity for normative control
图2. 进行规范控制的必要性示例
4. 新日本古籍综合数据库的特征
作为“日语历史典籍的国际共同研究网络构建计划”的成果之一,该数据库继承了原日本古籍综合目录数据库丰富的目录信息,与此同时,增加了古籍图片查看功能,方便读者直观的阅读与利用古籍。其增加的主要功能有:
1) 可以通过图像标签查找所需古籍
实现了从古籍图像的标题信息、文本或古籍插图等中提取关键词进行搜索的功能。
2) 通过DOI实现永久性访问
在论文等中引用古典籍图像时,通过标识的DOI,可以实现永久性链接访问。
3) 支持IIIF的查看器
国际图像互操作性框架International Image Interoperability Framework (IIIF)是新国际标准下的数字档案,日本的数字档案馆(DA)中也已经开始采用这一标准。
与传统的数字档案馆DA不同,传统的数字档案馆的档案DA只能在发布者的数字档案馆DA中查看,而支持IIIF的数字档案DA可以实现不同数字档案馆DA之间的图像共享和再利用。如图3所示,为国文学研究资料馆所藏的《伊势物语》数字档案,只要Manifest URI公开可用,支持IIIF的查看器Mirador 3就可以以这种方式查看来自不同数字档案馆的不同图像。
Figure 3. The digital archive of “The Tale of Ise” in the National Institute
图3. 国文学研究资料馆所藏的《伊势物语》数字档案
5. 日本国书数据库
日本国书数据库由日本古典籍综合目录数据库与日本古典籍综合数据库合并而成,且合并后强化了与其他相关数据库系统的协作,其最大的特色是便于比较古籍的不同版本。日本国书数据库于2023年3月1日正式投入使用,与此同时,日本古典籍综合目录数据库与日本古典籍综合数据库停止使用。截止到2024年4月22日,该数据库收录了书目记录922,365条、电子版古典籍506,384部、责任者规范记录74,449条[7]。未来,该数据库将不再局限于古籍,而是要将近现代日本图书的元数据、图像数据等都纳入进来,并进一步开发全文文本检索等高级搜索功能。
6. 日本古籍数字化著录标准
日本古籍数字化著录基本遵循图书的著录标准。编目员需要对照古籍实物、卡片目录和印刷目录等,根据需要进行参考并著录。
一般来说,书目数据制作必须包含以下项目:版本、题名、卷次、责任者名称、出版地、出版者、出版年份、尺寸和装订方式等。虽然藏书印章、旧藏书者等版本传承继承信息不是必须著录的,但如果编目员在书中发现了也应予以记录。另外,像“五山版”、“古活字版”、“近世木活字版”、“丹绿本”等与印刷形式相关的书目学术用词,也应在相关字段中标注。
日本古籍使用汉字和假名,其中汉字包含很多旧体字、异体字、略字等特殊情况。因此在将古籍电子化的过程中,最难以处理的是文字问题。国文学研究资料馆的“古典籍综合目录数据库”采用的办法是用新体字替换掉旧体字汉字。也有部分其他数据库照实著录,只有超出JIS第二水准的汉字才会才用片假名标注汉字发音并且加“[]”的形式著录。至于略字和异体字,则会改为对应的常用字。另外,所有的变体假名和万叶假名都会改用平假名。
关于古籍的题名著录方式有很多问题,但基本上会采用实物中卷首的题名。如果卷首没有题名或题名不合适,就会采用序、扉页或卷末(尾题)上的题名。通常,“増補改訂”等附加信息不会包含在题名中。
关于出版事项的著录,当涉及版本时,古籍实物上往往会出现多个出版者的情况。在扉页所列出的多个出版者中,一般会以最后一个出版的出版者为准;而在书脊上列出的多个出版者中,则会以第一个出版的出版者为准。此外,当个人名称和团体名称(如屋号等)同时出现时,一般会著录团体名称。例如,“须原屋茂兵卫”会被著录为“青藜阁”。
出版年份会照实著录,并且会标注年号和西历年份。如果是干支纪年法,则转换为年号。出版地的话,原则上会照实著录,但必要时会加上注释来补充说明。例如,“皇都”、“都”、“洛陽”、“京师”等会直接著录,并括号内加注“京都”来进行补充说明。
另外,通常的书目记录中必须要有分类号和主题词,但是日本在古籍书目著录中不要求。一方面是为了提高工作效率,另一方面古籍有其特有的分类体系,按照现代图书的分类标引方式给分类号和主题词没有太大意义。
最后,即使被判断为同一书、同一版,只要出现多本,每本都会单独建立一条书目数据。
7. 对我国的启示
我国古籍数字化实践起步于20世纪90年代。历经数十年的发展,目前我国古籍数字化实践已经取得了一些成绩,国家图书馆牵头建设的“中华再造善本”数据库、“中华古籍资源库”以及爱如生公司开发的“中国基本古籍库”“中国数字方志库”等重大项目,都在近二十年间不断发展[8]。但我国古籍数字化工作仍然面临着投入大利用率低,容易重复建设,仅支持字符简单检索等一系列问题[9]。日本国文学资料馆的古籍数字化实践为我国的古籍数字化实践工作提供了有益借鉴。
1) 我国古籍数字化实践应加强信息技术使用,提升学科融合能力,开发面向用户的数字化平台应用[10]。日本国书数据库强化了与其他相关数据库系统的协作,为用户比较古籍的不同版本提供了便利。开发该数据库的日本国文学资料馆正致力于进一步开发全文文本检索等高级搜索功能,在实现古籍信息挖掘与知识发现、构建面向用户的数字化平台应用方面做出了有益尝试。我国也应进一步加强信息技术在古籍信息化挖掘与知识发现方面的应用,致力于为科研人员减少古籍相关研究中的时间及人力成本,在更好地保护传世古籍的基础上促进古籍资源的广泛利用。
2) 加强古籍数字化资源之间的互联互通,尽可能设置古籍资源数据库与其他相关数据库之间的接口,探索建立互联互通机制、数据交换平台和推动合作共建,实现古籍资源整合共享,扩大相关研究者数据可选择范围,使研究者能够更便捷地访问和利用丰富的古籍资源,推动各项相关研究的深入发展[11]。日本国文学研究资料馆于2006年启用的“日本古籍综合目录数据库”设置了与联合国立国会图书馆开发的“Web NDL Authorities (著者名称规范)数据库”、日本古籍资料调查记录数据库等相关数据库之间的接口,为研究者更便捷地访问和利用古籍资源提供了便利。
3) 制定适合我国古籍特点的著录规则。古籍由于其历史的复杂性导致题名复杂,用语繁复,制定著录规则可以明确古籍的著录范围、原则与条目,明确古籍的基本信息[12]。因此,遵循标准化的古籍著录规则可以尽可能地增强古籍著录的普适性,减少馆际古籍资源之间的引用壁垒。日本国文学资料馆开发的新日本古籍综合数据库通过DOI实现了古籍永久性访问。在论文等中引用古典籍图像时,通过标识的DOI,实现永久性链接访问,在减少古籍资源引用壁垒方面进行了有益探索。
基金项目
中央高校基本科研业务费专项“国内韩朝图书情报学研究文献计量分析”(项目编号:202353006);中央高校基本科研业务费专项“新媒体环境下高校图书馆读者阅读行为分析及服务创新研究”(项目编号:202453006)。
NOTES
*通讯作者。