索引數據庫的性質根據《古今圖書集成》分類的特點和標目式多字段數據庫的功能,本版索引建立52個數據庫(有的相互結合,安排爲46個庫),達1189013條紀録,共38359673字。是當今最大的索引。爲了更好地顯示和使用這些數據庫,又做了一些電腦技術的處理。
(一)《古今圖書集成》分類的特點是經緯交織。經綫分類有三級,即6個彙編、32個典、6117個部;緯綫分類有10項,即彙考、總論、圖、表、列傳、藝文、選句、紀事、雜録、外編。經綫與緯綫交織,形成一個非常科學的分類系統。據此建立《經緯目録數據庫》,10個緯目作爲字段,經目中6彙編32典6117部都作爲記録,豎經橫緯,正好體現"經緯交織"。既可以查找經目,又可以查找緯目,還有校勘記、參見條、相關部。參見條有其特殊作用:(1)挖掘信息,指出該部的異名及相關的名稱;(2)溝通古今,選擇書中對古奧部名的釋義或指出相應的現代概念。相關部的作用是利用電腦的鏈結功能串通各部,指明可參考有關的部,把有關係的部相互聯繫起來。
在光盤上查找部名,可以採用兩種方式:除了按“彙考→典→部”逐級點擊外;還可以在“部名輸入”的空白框中,直接輸入部名。查到部名并加以點擊,就會在下方顯示出該部在精裝本和綫裝本中的起始册頁欄塊列碼。精裝本指1985年中華書局和巴蜀書社聯合出版的版本,每頁有3欄,每欄3塊,每塊有9列;綫裝本指1934年中華書局的版本,每頁又有A、B兩面。在查到部名的基礎上,再點擊各緯目的按鍵,如“彙考”鍵、“總論”鍵等。點擊某緯目鍵,下方顯示出該緯目在精裝本和綫裝本中的起始册頁欄塊列碼。例如:
書家部彙考:精裝本第65册第79137頁第1欄第3塊第2列;
綫裝本第650册第17頁A面第1欄第3塊第2列。
書家部總論:精裝本第65册第79153頁第2欄第2塊第2列;
綫裝本第650册第25頁A面第2欄第2塊第2列。
書家部列傳:精裝本第65册第79164頁第3欄第1塊第2列;
綫裝本第650册第30頁B面第3欄第1塊第2列。
書家部藝文:精裝本第65册第79459頁第1欄第2塊第2列;
綫裝本第650册第45頁A面第1欄第2塊第2列。
書家部選句:精裝本第65册第79476頁第1欄第2塊第1列;
綫裝本第650册第53頁A面第1欄第2塊第1列。
書家部紀事:精裝本第65册第79476頁第2欄第1塊第1列;
綫裝本第650册第53頁A面第2欄第1塊第1列。
書家部雜録:精裝本第65册第79484頁第1欄第2塊第1列;
綫裝本第650册第57頁A面第1欄第2塊第1列。
書家部外編:精裝本第65册第79487頁第3欄第1塊第1列;
綫裝本第650册第59頁A面第3欄第1塊第1列。
(二)本版索引採用標目式多字段數據庫。標目式多字段索引數據庫對原文進行加工,提取有效的信息建立起索引數據庫,大大提高了檢準率,而且可以從多個字段進行檢索。避免了全文索引夾雜大量無用信息(可謂信息垃圾)和只提供單一檢索渠道的弊端。當然,全文檢索是電腦本身具有的功能,不需要進行加工,檢全率高,出錯率低;而標目式多字段索引數據庫則需要進行加工,而且是既艱苦又枯燥的加工。在中國索引學會上,我們提出“標目式多字段索引數據庫”,指出標目式多字段索引數據庫與文本文件的全文索引是各有優勢的,可以相互補充;標目式多字段索引數據庫有助於提高檢索的查準率。得到索引專家們的一致肯定。
作爲《古今圖書集成》的標目式多字段索引數據庫,除了我們之外,國內外尚未見有他人製作。目前互聯網上有多種電子版的《古今圖書集成》,但是都没有配備標目式多字段索引數據庫,只能做目録索引或文本文件的全文索引。
主要數據庫的內容
本版的索引數據庫有兩大類,一是經緯目録數據庫,二是專題索引數據庫。都是屬於標目式多字段數據庫。經緯目録數據庫的內容前面已經作了介紹,這裏不再重複。下面重點介紹專題索引數據庫。
專題索引數據庫是就某一專題編製而成的。索引目録界面列出專題索引數據庫的一覽表。按意義分類排列,共有11類,即:圖表類、列傳類、引書類、文學藝術類、天文類、歷史、古籍類、行政區劃類、醫藥衛生類、經濟類、生物類、宗教類。下面共轄45個專題索引數據庫。各個專題索引數據庫的內容,在網絡版裏有充分的展示,這裏没必要一一描述。只能重點介紹十幾個。
(一)圖表索引數據庫
《古今圖書集成》中的圖像數量大,多達7831幅。而且十分精美。有的是來自他書,有的似是由宫廷畫家繪就,不管怎樣用的都是銅版印刷。這在十六世紀來説,是相當先進的了。表也不少,共有1359份。但有三個問題。一是相當一部分的表只是縱橫排列像張表,却没有格的綫條;二是有的縱橫排列像張表,標題却是圖,只好把圖和表合在一個庫裏,注明“此圖實爲表”;三有的表没有標題,特别是天文曆法的表,只得請北京天文館館長來核定。該索引數據庫列有五個字段,即圖表名、校注(注明幅數或份數、分合情况以及必要的注釋等)、圖或表(可選擇只查找圖或者表)、書名(該圖表出自哪本書)、部名(該圖表在哪一部中)。例如:
圖表名:諧聲製字圖[此圖實爲表]
校注: 漢正聲協聲同諧圖等
圖或表:表
書名:宋鄭樵《通志》
部名:聲韻部
查詢結果條數:1
本條出自:理學彙編字學典第131卷
精裝本第65册第79490頁第1欄第1塊第1列;
綫裝本第652册第60頁B面第1欄第1塊第1列。
(二)人物傳記索引數據庫
《古今圖書集成》收集了大量的人物傳記資料。不僅採自史書(包括正史、野史等),而且收入方志、筆記等的材料,大大充實了文獻資料。該索引數據庫共收録159717記録(包括分合)。列有七個字段,即人名、朝代、字號、籍貫、校注、書名、部名。可以分别從不同的字段進行查詢,渠道大爲增加。不僅能够通過人名檢索,還可以通過朝代、字號、籍貫、書名分别進行查找。如果把人名跟這些字段組配起來,命中率更高。這樣就把人名索引中常遇到同姓名的難題,順利地加以解决。全文索引的人名索引碰到同姓名者,用户需要一條一條去核對原書,才能確定是否是要找的那個人。例如,王鼎,在該庫中共出現15次(如果用模糊查詢,含有“王鼎”二字達39次),根據朝代、字型號、籍貫、書名、部名所提供的資料,可以甄别出實爲10位同姓名的古人,省去了翻檢原書的麻煩。如果把人名跟字號或籍貫等一起録入,就能更快捷查到需要找的人以及他的傳記了。例如:
人名:蘇軾
朝代:宋
字型大小:字子瞻,自號東坡居士
籍貫:眉州眉山人
校注:
書名:《宋史•本傳》、《春渚紀聞》、《捫虱新語》、《聞見後録》、
《揮麈餘話》、《泊宅編》、《冷齋夜話》、《清波雜誌》、《彥周
詩話》、《避暑録話》、《退齋筆録》、《游宦紀聞》、《隨手雜録》、
《行營雜録》、王宗稷《東坡年譜》
部名:文學總部
查詢結果條數:7(朝代、字號、籍貫均同,實爲一人。因爲蘇軾是多才多藝者,所以分别收入州牧部、蘇姓部、畫部、居士部、經學部、文學總部、書家部。各部的彙編、典、卷此以及册頁塊行碼都有所不同)
本條出自:理學彙編文學典第73卷
精裝本第63册第76572頁第1欄第2塊第4列;
綫裝本第628册第21頁B面第1欄第2塊第4列。
(三)引書索引數據庫
引書索引是類書索引中重要的一種。從作用來説,類書轉引大量的古籍資料,有必要理出所引用的古書及其數量。另外類書具有輯軼和校勘兩大特殊功能。引書索引有助於解决上述的任務。從數量來説,《古今圖書集成》的引書索引數據庫有60.6萬條記録,遠遠超過1.0版總的記録數(37萬條)。從難度來説,引書索引是類書索引中必不可少的,也是工作量最大而又最艱苦的。其艱苦性集中表現在:需要在原書上逐條鈎標;類書的引書來自各種不同的古書,名稱不一。有的同一本書有不同的名稱,而有的不同的書却有相同的名稱。需要做細緻的甄别工作。
《古今圖書集成》的引書都標有出處,相當部分有作者、書名、篇名。但也有的只標書名或篇名(下同);有的作者、書名、篇名承前省或用異名。引文的引用格式有:1.引文頂格列出, 用於緊跟着作者、書名、篇名的,如選句、紀事、雜録、外編;2.引文頂格列出, 用於前一行列有作者、書名、篇名的; 如彙考、總論、藝文;3.引文前加“按”字,用於彙考(前一行有小序的)、列傳。
(四)天災索引數據庫
有關歷史上自然災害的記録,《古今圖書集成》是比較齊全的。因爲其引書不僅僅限於史書,還採集了方志、筆記等。1976年唐山大地震發生後,有關部門爲了儘快收集到我國歷史上地震的資料,就把《古今圖書集成》庶徵典中的地異部(包括地震)翻印出來,但并不好查詢。有了該索引數據庫就方便多了,可以分别從六個字段查詢,即時間、地點、類别(包括寒暑災、雷電災、風災、雹災、雨災、水災、火災、旱災、蝗災、饑荒災、山災、地災、疫災)、禍害(包括嚴重程度、財産損失、人員傷亡等)、書名、部名。共有10683條記録。
例如,地災部記録了大量的地震資料,時間從上古黃帝一百年(這是《竹書紀年》記載的)到明崇禎十七年(公元1644年),先後1298次地震,分佈於全國各地。嚴重的有:
北魏世宗延昌元年四月庚辰,恒州之繁畤桑乾靈丘肆州之秀容燕門,地震陷裂山崩泉湧殺人五千三百一十人傷者二千七百二十二人牛馬雜畜死傷者三千餘;
宋仁宗景佑四年十二月甲申,并代忻州,地震吏民壓死者三萬二千三百六十人傷五千六百人畜擾死者五萬餘;
宋仁宗嘉佑二年夏四月丙寅,幽州,地大震壞城郭覆壓死者數萬人;
元成宗大德七年八月辛卯夜,平陽太原,地震村堡移徙地裂成渠人民壓死者不可勝計壞官民廬舍十萬計平陽趙城縣范宣義郇堡徙十餘里太原徐溝祁縣及汾州平遥介休西河孝義等縣地震成渠泉湧黑沙汾州北城陷長一里東城陷七十餘步;
元成宗大德十年八月壬寅,開成路,地震王宫及官民廬舍皆壞壓死故秦王妃也裏完等五千餘人;
明孝宗弘治十二年冬,宜良,地震民居盡圮壓死以萬計旬月常震越四年始寧;
明世宗嘉靖三十四年十二月,秦晉,地震陝西山移數里平地坼裂水溢出西安鳳翔慶陽諸府州縣城皆陷没人民壓死數十萬連震數月人心惶恐夜露宿里間不敢近廬舍山西平陽河南河洛諸郡縣皆連及之;
明世宗嘉靖三十四年十二月,太原平陽汾潞遼,地大震蒲州爲甚地裂水湧城垣屋舍殆盡人民壓溺死者不可勝計;
明世宗嘉靖三十四年十二月十二日夜半,臨晉縣,地大震地裂成渠井水外溢城郭祠宇官民廬舍盡傾壓死人畜無算嗣是微震不止天寒民露處搶掠大起;
明世宗嘉靖三十五年,山西陝西,地大震官署民屋盡倒壓死者以數萬計;
明世宗嘉靖年間,秦地,大震同州城郭廬舍蕩然壓者萬人刧殺四起橫屍塞野;
明神宗萬曆三十三年夏五月,瓊州,地震公署民房傾倒殆盡郡城中壓死數千人;
明神宗萬曆三十四年十一月丙寅朔,寧安,地震城垣梵宇官署民廬傾圮殆盡死者數千人。
(五)歷代地名索引數據庫(以下介紹從簡)
該索引數據庫收集了從夏禹到明末州縣以上的古地名,共計24558條記録。列有6個字段,即古地名、治所、注解、朝代、書名、部名,可分别或相搭配檢索。爲了弄清古地名與今地名複雜的對應關係,逐條查對復旦大學《中國歷史地名辭典》、譚其驤《中國歷史地圖集》、民政部《中華人民共和國行政區劃簡册》(以2000年版爲底本,據2007年版作局部修改))。
(六)亭臺樓閣索引數據庫
該索引數據庫收集了全國各地著名的亭臺樓閣等的名稱,出自亭部、台部、樓部、閣部、堂部、軒部、齋部、園林部、池沼部。共有4123條記録。可供旅遊開發事業參考。列有5個字段,即亭臺樓閣明、地名、朝代、書名、部名。可分别或相搭配檢索。
(七)醫論索引數據庫
該索引數據庫收集了從《黃帝素問》、《靈樞經》、《傷寒論》等中醫經典著作到明代諸多名家的醫學著作,以篇名爲單位,共有9415條。基本上按中醫傳統的門類(如臟腑門、胸腹門、四肢門、目門等)項類(分爲醫論、醫案、方、單方、導引、針灸、祝由)分别排列。列有5個字段,即醫論名、作者、作者朝代、醫部門類、部名。可分别或相搭配檢索。
(八)藥方索引數據庫
該索引數據庫收集了古代各權威醫家積累的藥方,計有14172條記録,也按中醫傳統的門類排列。對研究古代中醫處方,有重要參考價值。列有8各字段,即藥方名、藥效、藥名、用藥、用藥法、書名、部名、門類。可分别或相搭配檢索。
(九)藥名索引數據庫
該索引數據庫是從藥方索引數據庫加工整理而成的,以藥名爲主字段,把藥方索引數據庫中出現的每一次藥名作爲一條記録,共得102874條記録。對研究每一中藥的藥性、在各種藥方中的地位等,有著不可低估的意義。也列有8各字段,即藥名、藥效、藥方名、用藥、用藥法、書名、部名、門類。可分别或相搭配檢索。
(十)人口及田畝索引數據庫
該索引數據庫把古籍中有關人口及田畝的統計資料收集起來,按時間順序排列,有全國性的,也有地方性的。共有3187條記録。儘管這些官方數字不很準確,特别是在土地兼併嚴重或社會動亂的情况下,有弄虛作假的成分,但是從人口及田畝數字前後的變化中,還是可以找到一些規律性的東西。列有6各字段,即年代、範圍、人口數、田畝數、書名、部名。可分别或相搭配檢索。
(十一)禽蟲索引數據庫
《古今圖書集成》的禽蟲典收集了古籍中動物的名稱,特别是對動物的異名,做了歸納、整理工作,給大多數部設置“釋名”,集中注明某一動物的不同名稱。共計有5511條記録。因此,該索引數據庫字段列有5各,即動物名、釋名或正文(指該條記録是出自釋名還是正文)、釋名書名、正文釋名、部名。可分别或相搭配檢索。
(十二)草木索引數據庫
《古今圖書集成》的草木典收集了古籍中植物的名稱,特别是對植物的異名,做了歸納、整理工作,給大多數部設置“釋名”,集中注明某一動物的不同名稱。共計有12797條記録。因此,該索引數據庫字段列有5各,即動物名、釋名或正文(指該條記録是出自釋名還是正文)、釋名書名、正文釋名、部名。可分别或相搭配檢索。
《古今圖書集成索引》的編製
從1984年起,我們開始編製《古今圖書集成索引》,取得了油印本、印刷本、電子版等階段性成果。
印刷版曾獲国家教育部第一届人文社会科学二等獎和广西壮族自治區社科一等獎、中國索引學會特等獎等多項大獎。
電子版1.0版作爲國家新聞出版總署建國50周年獻禮項目,也得到專家好評。2.0版是在1.0版基礎上,增訂而成的,并且又製成網絡版。建立52個索引數據庫,合計1189013條記録,共38359673字,是當今最大的索引。
首先,建立《經緯目録數據庫》,目的是把“經緯交織”的分類特點充分揭示出來。既可以查找經目,包括6彙編32典6117部;又可以查找緯目,即各部中的彙考、總論、圖、表、列傳、藝文、選句、紀事、雜録、外編(無則缺之)。此外,還有校勘記、參見條、相關部。
參見條具有特殊作用:(1)挖掘信息,指出該部的異名及相關的名稱;(2)溝通古今,選擇書中對古奥部名的釋義或指出相應的現代概念。相關部的作用是利用電腦的鏈接功能串通各部,指明可參考有關的部,把有關係的部相互聯繫起來。
其次,編製各種索引數據庫,運用標目式多字段索引數據庫對原文進行加工,提取有效的信息,建立起一系列的索引數據庫,大大提高了檢凖率,而且可以從各個字段進行檢索。
計有:圖表類(含圖和表)、列傳類(含人物傳記)、引書類(含全書中各種引書,達60.6萬條記録)、文學藝術類(含藝文、選句、詩詞曲體裁、樂器、畫名、縮略語)、天文類(含星名、日食月食)、歷史類(含歷史紀元、歷史地名、歷史典籍、城池、關隘、故居、陵墓、石名、泉井、橋梁驛站、亭臺樓閣)、行政區劃類(含職方典小彙考、職方典縣名)、醫藥衛生類(含醫部門項、醫論、藥方、藥名、藥方書名表、養生法及警語)、經濟類(含人口及田畝、錢幣、酒茶、食品、服飾、倉庫)、生物類(含禽蟲、草木、禽蟲草木書名表)、宗教類(含諸佛、寺廟觀塔)。
另外,还有附録,如:經綫要目簡釋、緯綫項目簡釋、緯目出現頻率一覽表等。
以下是關于古今圖書集成索引相關情況的具體介紹:
編製《古今圖書集成》的原因
類書的性質是資料彙編、依類輯録的,它本身就是二次文獻,那還有没有必要給它編索引呢?回答是肯定的。
類書和索引有相同之處,都是經過加工的文獻,可加工的角度不同,功用各異。類書把古代文獻資料按類重新輯録彙編而成,索引則通過一定方式指引讀者去檢索文獻。索引一般只消指明文獻資料中各個條目的出處(即册次頁碼甚至行數),比較便捷,可以從不同的角度、用不同的方式去編製索引。也就是説,索引比類書更具有靈活多樣性,濃縮度大。
加上類書輯録的是古代文獻,索引是編給現代讀者使用的,古今有别,功能不同。類書的分類和類目,都是按照古代的觀念來確定的,現代的讀者,特别是年輕的讀者,并不一定熟悉,查閲起來比較困難,需要有適合現代讀者的索引來引路。
一句話,類書索引的作用在於揚類書之所長,補類書之所短,使讀者更方便利用類書。
《古今圖書集成》篇幅巨大,光目録就有40卷,涉及面又特别廣泛,更需要給它編製索引。外國學者對此反應很快,本世紀初俄國、英國、日本紛紛爲之編成索引。
而國內行動遲緩,1962年胡道靜在其長文《<古今圖書集成>的情况、特點及其作用》中强調指出:“今後《集成》還要充分地被使用,索引工作就很亟迫需要進行。”
過了20多年,張舜徽、戚志芬等專家仍在呼籲,應該儘快組識人力編出全面、高質量的索引來。前輩學者的殷切盼望,令人深受鼓舞。
國內外先後編製的《古今圖書集成索引》
據錢亞新《<古今圖書集成>及其新編索引》一文中的《<古今圖書集成>索引統計表》計有:
次序 | 出版年 | 編 者 | 書 名 | 出版地 | 1 | 1907 | (俄)瓦伯爾 | 古今圖書集成方輿彙編索引 | 聖彼德堡 | 2 | 1911 | (英)翟理斯 | 欽定古今圖書集成索引
| 倫敦 | 3 | 1933 | (日)瀧沢俊亮 | 古今圖書集成分類索引 | 大連 | 4 | 1963 | 牟潤孫等 | 古今圖書集成中明人傳記索引 | 香港 | 5 | 1964 | 文星書局 | 古今圖書集成索引
| 臺北 | 6 | 1972-1977 | (日)桝尾武 | 古今圖書集成引用書目録稿 | 日本 | 7 | 1982 | 復旦大學圖書館 | 古今圖書集成類目索引(油印本) | 上海 | 8 | 1985 | 林仲湘等 | 古今圖書集成索引(油印本)
| 南寧 | 9 | 1988 | 廣西大學《古今圖書集成》索引編寫組 | 廣西大學《古今圖書 古今圖書集成索引(爲前者修訂增刊本) | 成都 |
此外,還有兩種帶索引性質的目録:
1913年(日)文部省古今圖書集成分類目録》,東京
1957年蘭州大學圖書館《古今圖書集成目録》(油印本)蘭州
錢先生在收到第8種油印本時喜出望外,當日回信(也是他老人家的日記)説他60年前的夙願得以實現,主動提出“樂以爲序”,後寫成上文。
文中認爲前7種索引“顯然是不够全面的,使用時難免有偏缺之憾”。而對於第9種索引則給予極高的評價,從體系、類型、著録、字形、參照和排檢6個方面説明其特點和價值。
錢先生指出:“總的説來,這部新編的索引規模宏大,條目全面,實用方便。這就爲讀者可以利用而發揮其更大的作用。它不僅是我國古籍索引中的巨著,而且具有開拓創新的功績。編者對於我國學術界的貢獻,對於發揚我國古籍的功用,做了一件不朽的事業。”最後,意猶未盡,還賦詩一首,其中有“新編索引效無窮”句。他病逝前還鄭重其事把這部索引轉贈給中國索引學會。
該索引正式出版後,先後有16位專家分别撰文評論,有的高校(如武漢大學)圖書館學系還在課堂上作爲典型例子講解。
經廣西教委組織胡道靜、張舜徽、趙國璋、朱天俊、林焕標等專家通訊鑒定,由胡先生綜合寫出如下鑒定意見:
“本項科技成果卓越地完成了內容繁重、規模宏大、結構繁複的《古今圖書集成》的多角度多功能的索引工作,使這部中外聞名、有廣泛使用價值的中國古典文獻百科全書從此具備了能應付各種要求進行迅捷有效的檢索系統,大大加强這部巨型百科全書的使用效率,對文化學術的研究工作起到重大的助手作用,在索引工作史上具有里程碑的意義。本索引尋繹出原書結構上經緯交錯的特點,分别從經綫編出部名索引、類别索引,從緯綫上編出圖表索引、人物傳記索引,綱舉目張,有條不紊,使全書中的人、事、物都能一檢即獲,顯示出傑出的設計能力,富有創造意義,在世界漢學索引工作中達到了先進的水準。”
因此,我們的《古今圖書集成索引》先後榮獲國家教委人文科學二等獎、廣西社科一等獎、中國索引學會特等獎等多項大獎。
我們的《古今圖書集成》索引的優勢
20世紀80年代末開始出現電子版古籍及其索引,這是電腦時代的需要。本版《古今圖書集成》正是採用先進的電子技術,將原書移植於電腦光盤中,并編製出系列的數據庫索引。扼要地説,有下列多種優勢:
第一,古今結合,面向新世紀。它是古籍整理與現代科技的結晶,使古代文獻焕發現代化的青春,適應21世紀的新要求。
第二,擴大流傳,長期保存。原書部頭太大,書價甚高,收藏單位少,過去許多人只知其名,未見其書。電子版價廉物美,皇家珍藏普及于尋常百姓家。又不怕蟲蛀,可長期收藏。
第三,掃描録入,保持雍正六年武英殿銅活字本的原貌。不僅有文獻價值,還有文物價值。洋溢著古色古香,覽之恍如與古人對晤。 第四,查閲方便,免去尋書翻頁之勞。可直接通過索引數據庫調出原文圖像,原文圖像與索引數據庫同時顯示,并能前後翻頁,等等。 第五,易於攜帶,用數字壓縮技術,把原來滿滿幾大書架的綫裝書濃縮在27張光盤中,不必擔心占滿了書房或書庫,只消裝在一隻提袋裏就可以隨便挪動。 第六,方便檢索,特地編製了一批索引數據庫,可從各個字段去查找資料。
隨着電腦技術的發展、軟件版本不斷的提高,還會推出許多方便用户的功能。
數據庫索引和全文索引各自的優勢
電子版索引可以分爲全文索引和標目式多字段數據庫索引。
全文索引是在文本文件的基礎上進行。最簡單的是逐字的索引,電腦本身就有此功能,不必對文本文件進行加工,檢全率和檢準率是100%的。而詞語索引(主要指兩個字以上的)由於目前漢語在書面語中尚未分詞連寫,電腦本身無法檢索,靠電腦軟件識别,檢準率不可能達到100%,特别在古文獻中命中率更低。全文索引一般是單一字段的。
標目式多字段數據庫索引則不須依賴文本文件。特點是有多個字段,例如人名索引,除人名外還有朝代、字號、籍貫、校注、所在部名、所引書目等字段,這樣就把人名索引中常遇到的難題(同姓名的甄别),順利地加以解决了。檢索的渠道也更多了,可以通過朝代、字號、籍貫分别進行查找,并且標出殿本各印次的册頁碼和塊碼(如1934年的綫裝本、1984-1988年的精裝本以及所在的彙考名、典名、卷次、部名) 。如果把人名跟這些字段組配起來,命中率更高。而全文索引的人名索引碰到同姓名者,用户需要一條一條去核對原書,才能確定是否是要找的那個人。這就存在大量的“索引垃圾”,排除工作需要花費許多精力和時間。
本版索引採用標目式多字段數據庫索引,是考慮到多種因素的,除了因爲原文是圖像,不能用全文索引。更主要的原因是,由於《古今圖書集成》是類書,已經分類編排好了,應該充分利用類書這一特點,深入挖掘其內在的或相關的信息。例如許多部的緯目中有藝文這一項,已經把有關該部的詩文名篇都集中在一起,可以十分順利地摘録篇名、作者、朝代、文體等信息,建立起藝文數據庫,進行索引。
類書往往有助於編製源數據庫。源數據庫指的是它本身就提供了用户需要的事實或資料,不必再去查原書。例如本版索引中的《户口部、田製部人口田畝統計數據庫》,就屬於源數據庫。該庫列有統計年代、統計範圍、人口統計數、田畝統計數、所引書名、所在部名等字段,已經把該部的信息盡行列出,滿足了讀者的需要。這只有根據《古今圖書集成》才做得到。源數據庫代表未來的方向,值得大力編製。
利用標目式多字段數據庫索引還有個特點,能够對信息和資料進行對比、運算。例如人名有重收的,朝代、字號、籍貫可以互相補充。又如人口統計數字可以把各數字相加成全國的或某一地區的數字。
本版索引編製者的前期準備工作
應該説,是作了長期的、充分的準備工作。
首先,對《古今圖書集成》的分類、體例進行研討。1984年以來16年間反復思考,認識不斷深入。最初,完全信賴原書的《凡例》、《目録》,後來用正文來核對,發現了不少問題,逐一進行勘誤。例如部數《凡例》漏了8部,應爲6117部。并對其分類框架提出自己的看法,發現經緯交織的特點,得到專家們的肯定。據此製定了索引的總體方案。還對一些關鍵問題(如字形、參照系統、加注、內容增删等)進行論證。推敲過多種方案,作抽查測試、徵詢專家意見,最後才確定下來。
其次,努力把握電子版索引的功能,從1989年起先後選用過Dbase、Foxbase、Foxprow、Delphi等數據庫管理系統,進行分析比較。逐步解决了不少技術難關,如字庫的選擇、數據庫結構的設計、有關程序的編寫,等等。
第三,積累其他相關知識。給《古今圖書集成》這樣百科性類書編索引,更需要多學科的專門知識,如文獻學、文字學、訓詁學、歷史學以及中醫學。編製者大多有高級職稱,從事上述課程的教學科研。1995-1996年曾領取并完成國家教委《古文獻整理手段現代化問題──電腦大型字庫的字形問題研究》,爲本版索引的字形處理作了充分的理論和資料的準備。
第四,經過16年的實踐,建立起一支老中青、多學科、師生結合的索引編製隊伍。有學科帶頭人、學術骨幹和後起之秀。
正因爲有這樣長期的積累、準備,所以才有可能在决定出版後,以較快的速度編製出一系列的索引數據庫。
本版索引的具體內容 根據《古今圖書集成》分類的特點和標目式多字段數據庫的功能,本版索引建立52個數據庫,119萬條記録,共約3836萬字。
首先,建立《經緯目録數據庫》,目的是把"經緯交織"的分類特點充分揭示出來。10個緯目作爲字段,經目中6彙編32典6117部都作爲記録,豎經橫緯,正好體現"經緯交織"。既可以查找經目,又可以查找緯目,還有卷次、校勘記、參見條、相關部。
值得注意的是參見條,有其特殊作用:(1)挖掘信息,指出該部的異名及相關的名稱;(2)溝通古今,選擇書中對古奧部名的釋義或指出相應的現代概念;
相關部的作用是利用電腦的鏈接功能串通各部,指明可參考有關的部,把有關係的部相互聯繫起來。
其次,編製各種索引數據庫,運用標目式多字段索引數據庫對原文進行加工,提取有效的信息,建立起一系列的索引數據庫,大大提高了檢凖率,而且可以從各個字段進行檢索。
經目方面的索引數據庫包括《乾象典星名數據庫》、《歲功典四時年節風俗數據庫》、《庶征典天災數據庫》、《文學典詩詞曲體裁數據庫》、《樂律典樂器及樂曲數據庫》、《禽蟲典動物數據庫》、《草木典植物數據庫》、《神異典廟寺觀塔數據庫》、《考工典亭臺樓閣數據庫》、《醫部藥方數據庫》、《户口部田製部人口田畝數據庫》等。它們的作用是供查找某典或某部的某類事物,如星名、風俗、天災以及藥方、人口田畝等。
緯目方面的索引數據庫,大的有《圖表數據庫》、《藝文數據庫》和《人物傳記數據庫》,小的有《職方典小彙考數據庫》、《醫部門項數據庫》等。
按一般類别來看,索引数据庫有:圖表類(含圖和表)、列傳類(含人物傳記)、引書類(含全書中各種引書,達60.6萬條記録)、文學藝術類(含藝文、選句、詩詞曲體裁、樂器、畫名、縮略語)、天文類(含星名、日食月食)、歷史類(含歷史紀元、歷史地名、歷史典籍、城池、關隘、故居、陵墓、石名、泉井、橋梁驛站、亭臺樓閣)、行政區劃類(含職方典小彙考、職方典縣名)、醫藥衛生類(含醫部門項、醫論、藥方、藥名、藥方書名表、養生法及警語)、經濟類(含人口及田畝、錢幣、酒茶、食品、服飾、倉庫)、生物類(含禽蟲、草木、禽蟲草木書名表)、宗教類(含諸佛、寺廟觀塔)。
本版索引在字形處理上的獨到之處
整理古籍面臨的字形問題很多,諸如繁簡字、異體字、通假字、古今字、避諱字、錯字和新舊字形。而類書由於輯録自群書,來源不一,字形更加複雜,往往同在一頁同一個字有不同的寫法,甚至同一部名在總目、卷目、小標題也用了不同的寫法。對此,本版索引分别情况,作了妥善處理:
保留繁體字、通假字、古今字,一般不改。缺筆避諱字和錯字徑改,改字避諱字(如玄改爲元、胤改爲引)則加注説明。
新舊字形只取新字形,舊字形一律改用新字形。這個問題曾作爲專題探討過,因爲新舊字形涉及面廣,據統計達45%以上,目前尚未有新舊字形全部兼收的電腦字庫,再則新舊字形的差别是十分細微的(如吴-吳、册-冊、吕-呂、黄-黃),大家都能認同,不會當成兩個不同的字看待,改動也無妨。
在異體字處理上,是“能改的就改,不應改的就不改”,後者指作者姓名用的,總的原則是儘量改。爲的是避免一字兩收,查找不便。
另外,爲了方便大陸用户,另行把索引中的繁體字、異體字統一改爲規範的簡化字、選用字(即正字),可供用簡化字、選用字检索。
本版索引在校勘和加注上所下了的功夫
本來索引本身并不承擔校勘的責任,只消引導讀者查到原文就算完成任務了,但是如果替讀者多考慮一下,原文錯了,而索引將錯就錯,讀者又怎麽查得到呢?在編製索引中會發現些疑點,認真核對一下,就能刊正。有時不過是舉手之勞,有時會多花些功夫,也是值得的。當然,索引仍應以索引爲主,校勘是捎帶的。
本版索引主要在《經緯目録數據庫》和《藝文數據庫》多作了些校勘,并寫出校勘記。這是因爲經緯目録是全書的綱目,稍有錯漏,影響面相當廣,對其他索引數據庫有連鎖反應。所以,把總目、卷目、正文三者相互對照,發現問題,辨其正誤,寫出146條校勘記。至於藝文這項緯目,本是文人理所當然會重視,并且駕輕就熟完全能編好。可惜的是,不知是陳夢雷編纂時間太緊,忙中出錯,還是蔣廷錫妄加竄改,錯漏實在不少。多是作者姓名弄錯和朝代標錯標漏,一共寫出793條校勘記,還不包括大量的以字行、以封號爵位代替姓名以及跨朝代需要統一的情况。
至於加注,使用得更爲普遍,除了考證性的注文,還有注釋性和區别性的注文。例如,對改字避諱字"元"有必要加"當作玄",予以説明。又如同名的部名"杜鵑部",應分别注明"動物"和"植物"。
本版索引的參照系統
一部完善的索引,需要安排各種參照,使標目互相聯繫起來。根據國際標準組職(ISO)的規定,參照所揭示的語義關係有三種基本類型,即等同關係、等級關係和相關關係。結合《古今圖書集成》數據庫的索引的實際情况,還可以增加附於關係。所以採用下列參照系統:
第一,等同關係,一般是指異名、别名。在主條目末加注"即爲××"、"一曰(亦曰、又曰××)"、"又稱××"、"俗稱××"、"舊稱××",等等。在參照條目則加注"見××"。
第二,包含關係,指種屬概念之間的關係。在主條目末加注"含××"、"內有××",在參照條目末加注"屬××"。
第三,附於關係,在主條目加注"附××"、"另有××"、"與××相對",在參照條目加注"附於××"。
第四,相關關係,在主條目加注"詳××"、"參閲××"。
|
|