索引数据库的性质根据《古今图书集成》分类的特点和标目式多字段数据库的功能,本版索引建立52个数据库(有的相互结合,安排为46个库),达1189013条纪录,共38359673字。是当今最大的索引。为了更好地显示和使用这些数据库,又做了一些电脑技术的处理。
(一)《古今图书集成》分类的特点是经纬交织。经线分类有三级,即6个汇编、32个典、6117个部;纬线分类有10项,即汇考、总论、图、表、列传、艺文、选句、纪事、杂录、外编。经线与纬线交织,形成一个非常科学的分类系统。据此建立《经纬目录数据库》,10个纬目作为字段,经目中6汇编32典6117部都作为记录,竖经横纬,正好体现"经纬交织"。既可以查找经目,又可以查找纬目,还有校勘记、参见条、相关部。参见条有其特殊作用:(1)挖掘信息,指出该部的异名及相关的名称;(2)沟通古今,选择书中对古奥部名的释义或指出相应的现代概念。相关部的作用是利用计算机的链接功能串通各部,指明可参考有关的部,把有关系的部相互联系起来。
在光盘上查找部名,可以采用两种方式:除了按“汇考→典→部”逐级点击外;还可以在“部名输入”的空白框中,直接输入部名。查到部名并加以点击,就会在下方显示出该部在精装本和线装本中的起始册页栏块列码。精装本指1985年中华书局和巴蜀书社联合出版的版本,每页有3栏,每栏3块,每块有9列;线装本指1934年中华书局的版本,每页又有A、B两面。在查到部名的基础上,再点击各纬目的按键,如“汇考”键、“总论”键等。点击某纬目键,下方显示出该纬目在精装本和线装本中的起始册页栏块列码。例如:
书家部汇考:精装本第65册第79137页第1栏第3块第2列;
线装本第650册第17页A面第1栏第3块第2列。
书家部总论:精装本第65册第79153页第2栏第2块第2列;
线装本第650册第25页A面第2栏第2块第2列。
书家部列传:精装本第65册第79164页第3栏第1块第2列;
线装本第650册第30页B面第3栏第1块第2列。
书家部艺文:精装本第65册第79459页第1栏第2块第2列;
线装本第650册第45页A面第1栏第2块第2列。
书家部选句:精装本第65册第79476页第1栏第2块第1列;
线装本第650册第53页A面第1栏第2块第1列。
书家部纪事:精装本第65册第79476页第2栏第1块第1列;
线装本第650册第53页A面第2栏第1块第1列。
书家部杂录:精装本第65册第79484页第1栏第2块第1列;
线装本第650册第57页A面第1栏第2块第1列。
书家部外编:精装本第65册第79487页第3栏第1块第1列;
线装本第650册第59页A面第3栏第1块第1列。
(二)本版索引采用标目式多字段数据库。标目式多字段索引数据库对原文进行加工,提取有效的信息建立起索引数据库,大大提高了检準率,而且可以从多个字段进行检索。避免了全文索引夹杂大量无用信息(可谓信息垃圾)和只提供单一检索渠道的弊端。当然,全文检索是计算机本身具有的功能,不需要进行加工,检全率高,出错率低;而标目式多字段索引数据库则需要进行加工,而且是既艰苦又枯燥的加工。在中国索引学会上,我们提出“标目式多字段索引数据库”,指出标目式多字段索引数据库与文本文件的全文索引是各有优势的,可以相互补充;标目式多字段索引数据库有助于提高检索的查準率。得到索引专家们的一致肯定。
作为《古今图书集成》的标目式多字段索引数据库,除了我们之外,国内外尚未见有他人制作。目前互联网上有多种电子版的《古今图书集成》,但是都没有配备标目式多字段索引数据库,只能做目录索引或文本文件的全文索引。
主要数据库的内容
本版的索引数据库有两大类,一是经纬目录数据库,二是专题索引数据库。都是属于标目式多字段数据库。经纬目录数据库的内容前面已经作了介绍,这里不再重复。下面重点介绍专题索引数据库。
专题索引数据库是就某一专题编制而成的。索引目录界面列出专题索引数据库的一览表。按意义分类排列,共有11类,即:图表类、列传类、引书类、文学艺术类、天文类、历史、古籍类、行政区划类、医药卫生类、经济类、生物类、宗教类。下面共辖45个专题索引数据库。各个专题索引数据库的内容,在网络版里有充分的展示,这里没必要一一描述。只能重点介绍十几个。
(一)图表索引数据库
《古今图书集成》中的图像数量大,多达7831幅。而且十分精美。有的是来自他书,有的似是由宫廷画家绘就,不管怎样用的都是铜版印刷。这在十六世纪来说,是相当先进的了。表也不少,共有1359份。但有三个问题。一是相当一部分的表只是纵横排列像张表,却没有格的线条;二是有的纵横排列像张表,标题却是图,只好把图和表合在一个库里,注明“此图实为表”;三有的表没有标题,特别是天文历法的表,只得请北京天文馆馆长来核定。该索引数据库列有五个字段,即图表名、校注(注明幅数或份数、分合情况以及必要的注释等)、图或表(可选择只查找图或者表)、书名(该图表出自哪本书)、部名(该图表在哪一部中)。例如:
图表名:谐声制字图[此图实为表]
校注: 汉正声协声同谐图等
图或表:表
书名:宋郑樵《通志》
部名:声韵部
查询结果条数:1
本条出自:理学汇编字学典第131卷
精装本第65册第79490页第1栏第1块第1列;
线装本第652册第60页B面第1栏第1块第1列。
(二)人物传记索引数据库
《古今图书集成》收集了大量的人物传记资料。不仅采自史书(包括正史、野史等),而且收入方志、笔记等的材料,大大充实了文献资料。该索引数据库共收录159717记录(包括分合)。列有七个字段,即人名、朝代、字号、籍贯、校注、书名、部名。可以分别从不同的字段进行查询,渠道大为增加。不仅能够通过人名检索,还可以通过朝代、字号、籍贯、书名分别进行查找。如果把人名跟这些字段组配起来,命中率更高。这样就把人名索引中常遇到同姓名的难题,顺利地加以解决。全文索引的人名索引碰到同姓名者,用户需要一条一条去核对原书,才能确定是否是要找的那个人。例如,王鼎,在该库中共出现15次(如果用模糊查询,含有“王鼎”二字达39次),根据朝代、字号、籍贯、书名、部名所提供的资料,可以甄别出实为10位同姓名的古人,省去了翻检原书的麻烦。如果把人名跟字号或籍贯等一起录入,就能更快捷查到需要找的人以及他的传记了。例如:
人名:苏轼
朝代:宋
字号:字子瞻,自号东坡居士
籍贯:眉州眉山人
校注:
书名:《宋史•本传》、《春渚纪闻》、《扪虱新语》、《闻见后录》、
《挥麈余话》、《泊宅编》、《冷斋夜话》、《清波杂志》、《彦周
诗话》、《避暑录话》、《退斋笔录》、《游宦纪闻》、《随手杂录》、
《行营杂录》、王宗稷《东坡年谱》
部名:文学总部
查询结果条数:7(朝代、字号、籍贯均同,实为一人。因为苏轼是多才多艺者,所以分别收入州牧部、苏姓部、画部、居士部、经学部、文学总部、书家部。各部的汇编、典、卷此以及册页块行码都有所不同)
本条出自:理学汇编文学典第73卷
精装本第63册第76572页第1栏第2块第4列;
线装本第628册第21页B面第1栏第2块第4列。
(三)引书索引数据库
引书索引是类书索引中重要的一种。从作用来说,类书转引大量的古籍资料,有必要理出所引用的古书及其数量。另外类书具有辑轶和校勘两大特殊功能。引书索引有助于解决上述的任务。从数量来说,《古今图书集成》的引书索引数据库有60.6万条记録,远远超过1.0版总的记録数(37万条)。从难度来说,引书索引是类书索引中必不可少的,也是工作量最大而又最艰苦的。其艰苦性集中表现在:需要在原书上逐条钩标;类书的引书来自各种不同的古书,名称不一。有的同一本书有不同的名称,而有的不同的书却有相同的名称。需要做细致的甄别工作。
《古今图书集成》的引书都标有出处,相当部分有作者、书名、篇名。但也有的只标书名或篇名(下同);有的作者、书名、篇名承前省或用异名。引文的引用格式有:1.引文顶格列出, 用于紧跟着作者、书名、篇名的,如选句、纪事、杂录、外编;2.引文顶格列出, 用于前一行列有作者、书名、篇名的; 如汇考、总论、艺文;3.引文前加“按”字,用于汇考(前一行有小序的)、列传。
(四)天灾索引数据库
有关历史上自然灾害的记录,《古今图书集成》是比较齐全的。因为其引书不仅仅限于史书,还采集了方志、笔记等。1976年唐山大地震发生后,有关部门为了尽快收集到我国历史上地震的资料,就把《古今图书集成》庶征典中的地异部(包括地震)翻印出来,但并不好查询。有了该索引数据库就方便多了,可以分别从六个字段查询,即时间、地点、类别(包括寒暑灾、雷电灾、风灾、雹灾、雨灾、水灾、火灾、旱灾、蝗灾、饥荒灾、山灾、地灾、疫灾)、祸害(包括严重程度、财产损失、人员伤亡等)、书名、部名。共有10683条记录。
例如,地灾部记录了大量的地震资料,时间从上古黄帝一百年(这是《竹书纪年》记载的)到明崇禎十七年(公元1644年),先后1298次地震,分布于全国各地。严重的有:
北魏世宗延昌元年四月庚辰,恒州之繁畤桑干灵丘肆州之秀容鴈门,地震陷裂山崩泉涌杀人五千三百一十人伤者二千七百二十二人牛马杂畜死伤者三千余;
宋仁宗景佑四年十二月甲申,并代忻州,地震吏民压死者三万二千三百六十人伤五千六百人畜扰死者五万余;
宋仁宗嘉佑二年夏四月丙寅,幽州,地大震坏城郭覆压死者数万人;
元成宗大德七年八月辛卯夜,平阳太原,地震村堡移徙地裂成渠人民压死者不可胜计坏官民庐舍十万计平阳赵城县范宣义郇堡徙十余里太原徐沟祁县及汾州平遥介休西河孝义等县地震成渠泉涌黑沙汾州北城陷长一里东城陷七十余步;
元成宗大德十年八月壬寅,开成路,地震王宫及官民庐舍皆坏压死故秦王妃也里完等五千余人;
明孝宗弘治十二年冬,宜良,地震民居尽圮压死以万计旬月常震越四年始宁;
明世宗嘉靖三十四年十二月,秦晋,地震陕西山移数里平地坼裂水溢出西安凤翔庆阳诸府州县城皆陷没人民压死数十万连震数月人心惶恐夜露宿里间不敢近庐舍山西平阳河南河洛诸郡县皆连及之;
明世宗嘉靖三十四年十二月,太原平阳汾潞辽,地大震蒲州为甚地裂水涌城垣屋舍殆尽人民压溺死者不可胜计;
明世宗嘉靖三十四年十二月十二日夜半,临晋县,地大震地裂成渠井水外溢城郭祠宇官民庐舍尽倾压死人畜无筭嗣是微震不止天寒民露处抢掠大起;
明世宗嘉靖三十五年,山西陕西,地大震官署民屋尽倒压死者以数万计;
明世宗嘉靖年间,秦地,大震同州城郭庐舍荡然压者万人刧杀四起横尸塞野;
明神宗万历三十三年夏五月,琼州,地震公署民房倾倒殆尽郡城中压死数千人;
明神宗万历三十四年十一月丙寅朔,宁安,地震城垣梵宇官署民庐倾圮殆尽死者数千人。
(五)历代地名索引数据库(以下介绍从简)
该索引数据库收集了从夏禹到明末州县以上的古地名,共计24558条记录。列有6个字段,即古地名、治所、注解、朝代、书名、部名。可分别或相搭配检索。。为了弄清古地名与今地名复杂的对应关系,逐条查对复旦大学《中国历史地名辞典》、谭其骧《中国历史地图集》、民政部《中华人民共和国行政区划简册》(以2000年版为底本,据2007年版作局部修改))。
(六)亭台楼阁索引数据库
该索引数据库收集了全国各地著名的亭台楼阁等的名称,出自亭部、台部、楼部、阁部、堂部、轩部、斋部、园林部、池沼部。共有4123条记录。可供旅游开发事业参考。列有5个字段,即亭台楼阁明、地名、朝代、书名、部名。可分别或相搭配检索。
(七)医论索引数据库
该索引数据库收集了从《黄帝素问》、《灵枢经》、《伤寒论》等中医经典著作到明代诸多名家的医学著作,以篇名为单位,共有9415条。基本上按中医传统的门类(如脏腑门、胸腹门、四肢门、目门等)项类(分为医论、医案、方、单方、导引、针灸、祝由)分别排列。列有5个字段,即医论名、作者、作者朝代、医部门类、部名。可分别或相搭配检索。
(八)药方索引数据库
该索引数据库收集了古代各权威医家积累的药方,计有14172条记录,也按中医传统的门类排列。对研究古代中医处方,有重要参考价值。列有8各字段,即药方名、药效、药名、用药、用药法、书名、部名、门类。可分别或相搭配检索。
(九)药名索引数据库
该索引数据库是从药方索引数据库加工整理而成的,以药名为主字段,把药方索引数据库中出现的每一次药名作为一条记录,共得102874条记录。对研究每一中药的药性、在各种药方中的地位等,有着不可低估的意义。也列有8各字段,即药名、药效、药方名、用药、用药法、书名、部名、门类。可分别或相搭配检索。
(十)人口及田亩索引数据库
该索引数据库把古籍中有关人口及田亩的统计资料收集起来,按时间顺序排列,有全国性的,也有地方性的。共有3187条记录。尽管这些官方数字不很準确,特别是在土地兼并严重或社会动乱的情况下,有弄虚作假的成分,但是从人口及田亩数字前后的变化中,还是可以找到一些规律性的东西。列有6各字段,即年代、范围、人口数、田亩数、书名、部名。可分别或相搭配检索。
(十一)禽虫索引数据库
《古今图书集成》的禽虫典收集了古籍中动物的名称,特别是对动物的异名,做了归纳、整理工作,给大多数部设置“释名”,集中注明某一动物的不同名称。共计有5511条记录。因此,该索引数据库字段列有5各,即动物名、释名或正文(指该条记录是出自释名还是正文)、释名书名、正文释名、部名。可分别或相搭配检索。
(十二)草木索引数据库
《古今图书集成》的草木典收集了古籍中植物的名称,特别是对植物的异名,做了归纳、整理工作,给大多数部设置“释名”,集中注明某一动物的不同名称。共计有12797条记录。因此,该索引数据库字段列有5各,即动物名、释名或正文(指该条记录是出自释名还是正文)、释名书名、正文释名、部名。可分别或相搭配检索
从1984年起,我们开始编制《古今图书集成索引》,取得了油印本、印刷本、电子版等阶段性成果。
印刷版曾获国家教育部第一届人文社会科学二等奖和广西壮族自治区社科一等奖、中国索引学会特等奖等多项大奖。
电子版1.0版作为国家新闻出版总署建国50周年献礼项目,也得到专家好评。2.0版是在1.0版基础上,增订而成的,并且又制成网络版。建立52个索引数据库,合计1189013条记录,共38359673字,是当今最大的索引。
首先,建立《经纬目录数据库》,目的是把“经纬交织”的分类特点充分揭示出来。既可以查找经目,包括6汇编32典6117部;又可以查找纬目,即各部中的汇考、总论、图、表、列传、艺文、选句、纪事、杂录、外编(无则缺之)。此外,还有校勘记、参见条、相关部。
参见条具有特殊作用:(1)挖掘信息,指出该部的异名及相关的名称;(2)沟通古今,选择书中对古奥部名的释义或指出相应的现代概念。相关部的作用是利用电脑的链接功能串通各部,指明可参考有关的部,把有关系的部相互联系起来。
其次,编制各种索引数据库,运用标目式多字段索引数据库对原文进行加工,提取有效的信息,建立起一系列的索引数据库,大大提高了检凖率,而且可以从各个字段进行检索。
计有:图表类(含图和表)、列传类(含人物传记)、引书类(含全书中各种引书,达60.6万条记录)、文学艺术类(含艺文、选句、诗词曲体裁、乐器、画名、缩略语)、天文类(含星名、日食月食)、历史类(含历史纪元、历史地名、历史典籍、城池、关隘、故居、陵墓、石名、泉井、桥梁驿站、亭台楼阁)、行政区划类(含职方典小汇考、职方典县名)、医药卫生类(含医部门项、医论、药方、药名、药方书名表、养生法及警语)、经济类(含人口及田亩、钱币、酒茶、食品、服饰、仓库)、生物类(含禽虫、草木、禽虫草木书名表)、宗教类(含诸佛、寺庙观塔)。
另外,还有附录,如:经线要目简释、纬线项目简释、纬目出现频率一览表等。
以下是关于古今图书集成索引相关情况的具体介绍:
编制《古今图书集成》的原因
类书的性质是资料汇编、依类辑录的,它本身就是二次文献,那还有没有必要给它编索引呢?回答是肯定的。
类书和索引有相同之处,都是经过加工的文献,可加工的角度不同,功用各异。类书把古代文献资料按类重新辑录汇编而成,索引则通过一定方式指引读者去检索文献。索引一般只消指明文献资料中各个条目的出处(即册次页码甚至行数),比较便捷,可以从不同的角度、用不同的方式去编制索引。也就是说,索引比类书更具有灵活多样性,浓缩度大。
加上类书辑录的是古代文献,索引是编给现代读者使用的,古今有别,功能不同。类书的分类和类目,都是按照古代的观念来确定的,现代的读者,特别是年轻的读者,并不一定熟悉,查阅起来比较困难,需要有适合现代读者的索引来引路。
一句话,类书索引的作用在于扬类书之所长,补类书之所短,使读者更方便利用类书。
《古今图书集成》篇幅巨大,光目录就有40卷,涉及面又特别广泛,更需要给它编制索引。外国学者对此反应很快,本世纪初俄国、英国、日本纷纷为之编成索引。
而国内行动迟缓,1962年胡道静在其长文《<古今图书集成>的情况、特点及其作用》中强调指出:“今后《集成》还要充分地被使用,索引工作就很亟迫需要进行。”
过了20多年,张舜徽、戚志芬等专家仍在呼吁,应该尽快组识人力编出全面、高质量的索引来。前辈学者的殷切盼望,令人深受鼓舞。
国内外先后编制的《古今图书集成索引》
据钱亚新《<古今图书集成>及其新编索引》一文中的《<古今图书集成>索引统计表》计有:
次序 | 出版年 | 编 者 | 书 名 | 出版地 | 1 | 1907 | (俄)瓦伯尔 | 古今图书集成方舆汇编索引 | 圣彼德堡 | 2 | 1911 | (英)翟理斯 | 钦定古今图书集成索引
| 伦敦 | 3 | 1933 | (日)泷沢俊亮 | 古今图书集成分类索引 | 大连 | 4 | 1963 | 牟润孙等 | 古今图书集成中明人传记索引 | 香港 | 5 | 1964 | 文星书局 | 古今图书集成索引
| 台北 | 6 | 1972-1977 | (日)桝尾武 | 古今图书集成引用书目录稿 | 日本 | 7 | 1982 | 复旦大学图书馆 | 古今图书集成类目索引(油印本) | 上海 | 8 | 1985 | 林仲湘等 | 古今图书集成索引(油印本)
| 南宁 | 9 | 1988 | 广西大学《古今图书集成》索引编写组 | 广西大学《古今图书 古今图书集成索引(为前者修订增刊本) | 成都 |
此外,还有两种带索引性质的目录:
1913年(日)文部省古今图书集成分类目录》,东京
1957年兰州大学图书馆《古今图书集成目录》(油印本)兰州
钱先生在收到第8种油印本时喜出望外,当日回信(也是他老人家的日记)说他60年前的夙愿得以实现,主动提出“乐以为序”,后写成上文。
文中认为前7种索引“显然是不够全面的,使用时难免有偏缺之憾”。而对于第9种索引则给予极高的评价,从体系、类型、着录、字形、参照和排检6个方面说明其特点和价值。
钱先生指出:“总的说来,这部新编的索引规模宏大,条目全面,实用方便。这就为读者可以利用而发挥其更大的作用。它不仅是我国古籍索引中的巨著,而且具有开拓创新的功绩。编者对于我国学术界的贡献,对于发扬我国古籍的功用,做了一件不朽的事业。”最后,意犹未尽,还赋诗一首,其中有“新编索引效无穷”句。他病逝前还郑重其事把这部索引转赠给中国索引学会。
该索引正式出版后,先后有16位专家分别撰文评论,有的高校(如武汉大学)图书馆学系还在课堂上作为典型例子讲解。
经广西教委组织胡道静、张舜徽、赵国璋、朱天俊、林焕标等专家通讯鉴定,由胡先生综合写出如下鉴定意见:
“本项科技成果卓越地完成了内容繁重、规模宏大、结构繁复的《古今图书集成》的多角度多功能的索引工作,使这部中外闻名、有广泛使用价值的中国古典文献百科全书从此具备了能应付各种要求进行迅捷有效的检索系统,大大加强这部巨型百科全书的使用效率,对文化学术的研究工作起到重大的助手作用,在索引工作史上具有里程碑的意义。本索引寻绎出原书结构上经纬交错的特点,分别从经线编出部名索引、类别索引,从纬线上编出图表索引、人物传记索引,纲举目张,有条不紊,使全书中的人、事、物都能一检即获,显示出杰出的设计能力,富有创造意义,在世界汉学索引工作中达到了先进的水准。”
因此,我们的《古今图书集成索引》先后荣获国家教委人文科学二等奖、广西社科一等奖、中国索引学会特等奖等多项大奖。
我们的《古今图书集成》索引的优势
20世纪80年代末开始出现电子版古籍及其索引,这是电脑时代的需要。本版《古今图书集成》正是采用先进的电子技术,将原书移植于电脑光盘中,并编制出系列的数据库索引。扼要地说,有下列多种优势:
第一,古今结合,面向新世纪。它是古籍整理与现代科技的结晶,使古代文献焕发现代化的青春,适应21世纪的新要求。
第二,扩大流传,长期保存。原书部头太大,书价甚高,收藏单位少,过去许多人只知其名,未见其书。电子版价廉物美,皇家珍藏普及于寻常百姓家。又不怕虫蛀,可长期收藏。
第三,扫描录入,保持雍正六年武英殿铜活字本的原貌。不仅有文献价值,还有文物价值。洋溢着古色古香,览之恍如与古人对晤。
第四,查阅方便,免去寻书翻页之劳。可直接通过索引数据库调出原文图像,原文图像与索引数据库同时显示,并能前后翻页,等等。
第五,易于携带,用数字压缩技术,把原来满满几大书架的线装书浓缩在27张光盘中,不必担心占满了书房或书库,只消装在一只提袋里就可以随便挪动。
第六,方便检索,特地编制了一批索引数据库,可从各个字段去查找资料。
随着电脑技术的发展、软件版本不断的提高,还会推出许多方便用户的功能。
数据库索引和全文索引各自的优势
电子版索引可以分为全文索引和标目式多字段数据库索引。
全文索引是在文本文件的基础上进行。最简单的是逐字的索引,电脑本身就有此功能,不必对文本文件进行加工,检全率和检准率是100%的。而词语索引(主要指两个字以上的)由于目前汉语在书面语中尚未分词连写,电脑本身无法检索,靠电脑软件识别,检准率不可能达到100%,特别在古文献中命中率更低。全文索引一般是单一字段的。
标目式多字段数据库索引则不须依赖文本文件。特点是有多个字段,例如人名索引,除人名外还有朝代、字号、籍贯、校注、所在部名、所引书目等字段,这样就把人名索引中常遇到的难题(同姓名的甄别),顺利地加以解决了。检索的渠道也更多了,可以通过朝代、字号、籍贯分别进行查找,并且标出殿本各印次的册页码和块码(如1934年的线装本、1984-1988年的精装本以及所在的汇考名、典名、卷次、部名) 。如果把人名跟这些字段组配起来,命中率更高。而全文索引的人名索引碰到同姓名者,用户需要一条一条去核对原书,才能确定是否是要找的那个人。这就存在大量的“索引垃圾”,排除工作需要花费许多精力和时间。
本版索引采用标目式多字段数据库索引,是考虑到多种因素的,除了因为原文是图像,不能用全文索引。更主要的原因是,由于《古今图书集成》是类书,已经分类编排好了,应该充分利用类书这一特点,深入挖掘其内在的或相关的信息。例如许多部的纬目中有艺文这一项,已经把有关该部的诗文名篇都集中在一起,可以十分顺利地摘录篇名、作者、朝代、文体等信息,建立起艺文数据库,进行索引。
类书往往有助于编制源数据库。源数据库指的是它本身就提供了用户需要的事实或资料,不必再去查原书。例如本版索引中的《户口部、田制部人口田亩统计数据库》,就属于源数据库。该库列有统计年代、统计范围、人口统计数、田亩统计数、所引书名、所在部名等字段,已经把该部的信息尽行列出,满足了读者的需要。这只有根据《古今图书集成》才做得到。源数据库代表未来的方向,值得大力编制。
利用标目式多字段数据库索引还有个特点,能够对信息和资料进行对比、运算。例如人名有重收的,朝代、字号、籍贯可以互相补充。又如人口统计数字可以把各数字相加成全国的或某一地区的数字。
本版索引编制者的前期准备工作
应该说,是作了长期的、充分的准备工作。
首先,对《古今图书集成》的分类、体例进行研讨。1984年以来16年间反复思考,认识不断深入。最初,完全信赖原书的《凡例》、《目录》,后来用正文来核对,发现了不少问题,逐一进行勘误。例如部数《凡例》漏了8部,应为6117部。并对其分类框架提出自己的看法,发现经纬交织的特点,得到专家们的肯定。据此制定了索引的总体方案。还对一些关键问题(如字形、参照系统、加注、内容增删等)进行论证。推敲过多种方案,作抽查测试、征询专家意见,最后才确定下来。
其次,努力把握电子版索引的功能,从1989年起先后选用过Dbase、Foxbase、Foxprow、Delphi等数据库管理系统,进行分析比较。逐步解决了不少技术难关,如字库的选择、数据库结构的设计、有关程序的编写,等等。
第三,积累其他相关知识。给《古今图书集成》这样百科性类书编索引,更需要多学科的专门知识,如文献学、文字学、训诂学、历史学以及中医学。编制者大多有高级职称,从事上述课程的教学科研。1995-1996年曾领取并完成国家教委《古文献整理手段现代化问题──电脑大型字库的字形问题研究》,为本版索引的字形处理作了充分的理论和资料的准备。
第四,经过16年的实践,建立起一支老中青、多学科、师生结合的索引编制队伍。有学科带头人、学术骨干和后起之秀。
正因为有这样长期的积累、准备,所以才有可能在决定出版后,以较快的速度编制出一系列的索引数据库。
本版索引的具体内容 根据《古今图书集成》分类的特点和标目式多字段数据库的功能,本版索引建立52个数据库,119万条记录,共约3836万字。
首先,建立《经纬目录数据库》,目的是把"经纬交织"的分类特点充分揭示出来。10个纬目作为字段,经目中6汇编32典6117部都作为记录,竖经横纬,正好体现"经纬交织"。既可以查找经目,又可以查找纬目,还有卷次、校勘记、参见条、相关部。
值得注意的是参见条,有其特殊作用:(1)挖掘信息,指出该部的异名及相关的名称;(2)沟通古今,选择书中对古奥部名的释义或指出相应的现代概念;
相关部的作用是利用电脑的链接功能串通各部,指明可参考有关的部,把有关系的部相互联系起来。
其次,编制各种索引数据库,运用标目式多字段索引数据库对原文进行加工,提取有效的信息,建立起一系列的索引数据库,大大提高了检凖率,而且可以从各个字段进行检索。
经目方面的索引数据库包括《乾象典星名数据库》、《岁功典四时年节风俗数据库》、《庶征典天灾数据库》、《文学典诗词曲体裁数据库》、《乐律典乐器及乐曲数据库》、《禽虫典动物数据库》、《草木典植物数据库》、《神异典庙寺观塔数据库》、《考工典亭台楼阁数据库》、《医部药方数据库》、《户口部田制部人口田亩数据库》等。它们的作用是供查找某典或某部的某类事物,如星名、风俗、天灾以及药方、人口田亩等。
纬目方面的索引数据库,大的有《图表数据库》、《艺文数据库》和《人物传记数据库》,小的有《职方典小汇考数据库》、《医部门项数据库》等。
按一般类别来看,索引数据库有:图表类(含图和表)、列传类(含人物传记)、引书类(含全书中各种引书,达60.6万条记录)、文学艺术类(含艺文、选句、诗词曲体裁、乐器、画名、缩略语)、天文类(含星名、日食月食)、历史类(含历史纪元、历史地名、历史典籍、城池、关隘、故居、陵墓、石名、泉井、桥梁驿站、亭台楼阁)、行政区划类(含职方典小汇考、职方典县名)、医药卫生类(含医部门项、医论、药方、药名、药方书名表、养生法及警语)、经济类(含人口及田亩、钱币、酒茶、食品、服饰、仓库)、生物类(含禽虫、草木、禽虫草木书名表)、宗教类(含诸佛、寺庙观塔)。
本版索引在字形处理上的独到之处
整理古籍面临的字形问题很多,诸如繁简字、异体字、通假字、古今字、避讳字、错字和新旧字形。而类书由于辑录自群书,来源不一,字形更加复杂,往往同在一页同一个字有不同的写法,甚至同一部名在总目、卷目、小标题也用了不同的写法。对此,本版索引分别情况,作了妥善处理:
保留繁体字、通假字、古今字,一般不改。缺笔避讳字和错字径改,改字避讳字(如玄改为元、胤改为引)则加注说明。
新旧字形只取新字形,旧字形一律改用新字形。这个问题曾作为专题探讨过,因为新旧字形涉及面广,据统计达45%以上,目前尚未有新旧字形全部兼收的电脑字库,再则新旧字形的差别是十分细微的(如吴-吴、册-册、吕-吕、黄-黄),大家都能认同,不会当成两个不同的字看待,改动也无妨。
在异体字处理上,是“能改的就改,不应改的就不改”,后者指作者姓名用的,总的原则是尽量改。为的是避免一字两收,查找不便。
另外,为了方便大陆用户,另行把索引中的繁体字、异体字统一改为规范的简化字、选用字(即正字),可供用简化字、选用字检索。
本版索引在校勘和加注上所下了的功夫
本来索引本身并不承担校勘的责任,只消引导读者查到原文就算完成任务了,但是如果替读者多考虑一下,原文错了,而索引将错就错,读者又怎么查得到呢?在编制索引中会发现些疑点,认真核对一下,就能刊正。有时不过是举手之劳,有时会多花些功夫,也是值得的。当然,索引仍应以索引为主,校勘是捎带的。
本版索引主要在《经纬目录数据库》和《艺文数据库》多作了些校勘,并写出校勘记。这是因为经纬目录是全书的纲目,稍有错漏,影响面相当广,对其他索引数据库有连锁反应。所以,把总目、卷目、正文三者相互对照,发现问题,辨其正误,写出146条校勘记。至于艺文这项纬目,本是文人理所当然会重视,并且驾轻就熟完全能编好。可惜的是,不知是陈梦雷编纂时间太紧,忙中出错,还是蒋廷锡妄加窜改,错漏实在不少。多是作者姓名弄错和朝代标错标漏,一共写出793条校勘记,还不包括大量的以字行、以封号爵位代替姓名以及跨朝代需要统一的情况。
至于加注,使用得更为普遍,除了考证性的注文,还有注释性和区别性的注文。例如,对改字避讳字"元"有必要加"当作玄",予以说明。又如同名的部名"杜鹃部",应分别注明"动物"和"植物"。
本版索引的参照系统 一部完善的索引,需要安排各种参照,使标目互相联系起来。根据国际标准组职(ISO)的规定,参照所揭示的语义关系有三种基本类型,即等同关系、等级关系和相关关系。结合《古今图书集成》数据库的索引的实际情况,还可以增加附于关系。所以采用下列参照系统:
第一,等同关系,一般是指异名、别名。在主条目末加注"即为××"、"一曰(亦曰、又曰××)"、"又称××"、"俗称××"、"旧称××",等等。在参照条目则加注"见××"。
第二,包含关系,指种属概念之间的关系。在主条目末加注"含××"、"内有××",在参照条目末加注"属××"。
第三,附于关系,在主条目加注"附××"、"另有××"、"与××相对",在参照条目加注"附于××"。
第四,相关关系,在主条目加注"详××"、"参阅××"。
|
|