解放军文职招聘考试信息资源及其组织
信息描述,亦称信息资源描述,是指根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。在传统文献检索系统的编制中,信息描述又称为文献著录或书目著录,是信息资源组织的重要内容。信息描述的结果,是获得描述记录亦即元数据,用作信息资源的代替物组织检索系统。
什么是元数据?一般认为,元数据是关于数据的数据,或关于数据的结构化的数据。对于元数据的含义,目前仍在探讨之中。从已有的论述看,元数据的含义是逐步发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。由于传统的书目数据与数字信息资源的描述数据本质上并无不同,因此,目前元数据这一术语实际上适用于各种类型信息资源的描述记录。在信息资源组织的实践中,一网络信息资源的描述数据是元数据,一电子文本的描述数据是元数据,一传统出版形式的编目数据也是元数据。元数据描述的对象,包括各种不同资源类型,它们可以是图书、期刊、磁带、录像带、缩微品,也可以是其中的论文、科技报告以及各种形式的网络信息资源等;描述的成分,通常是从信息资源中抽取出来的用于说明其特征、内容的数据,如题名,版本,出版数据,相关说明等。从目前使用的情况看,元数据的含义实际上与传统文献领域中的著录款目性质相同,是一种电子环境中使用的著录数据。因此本书将元数据与描述记录、文献记录作为同义词使用。一个元数据款目构成一个信息资源的基本数据,是检索系统的基本构成单元,它可以代表信息资源用来组织目录、索引、数据库、搜索引擎等检索系统。信息描述的目的,就是以元数据为中介,对信息资源进行各种操作。其作用包括:
二,信息描述的规范
信息资源的描述通常需要根据检索系统的要求,确定描述的成分和特征,按一定的次序和形式记录。为了一致、有效地对信息资源进行描述,便于不同机构之间的信息交换,信息描述通常应依据一定的描述规范进行。长期来不同领域的信息工作者,根据各领域信息资源的特点和检索的需要,进行了许多研究和探索,建立了一系列信息描述的规范和标准。其中,以书目文献领域描述标准化的努力最为典型文献描述标准,亦即文献著录标准,形成于20世纪70年代。是随着计算机在文献领域中的应用而逐步发展起来的。20世纪60年代进行的编目机读化的努力,增加了信息资源共享的可能性,使得文献描述标准化的重要性得到了充分重视。为了促进各国信息资源的交流和互换,国际文献界于70年代进行的国际标准书目著录(1SBD)项目,推动了编目界标准化的进程。1971年,国际图书馆协会联合会(1FLA)编目委员会率先颁布了单行著作国际标准书目著录(1SBD(M)),随后又推出了一系列以丛书、乐谱、地图资料、非书资料等为对象的书目描述的国际标准。为了进行各个标准之间的协调,于1976年又出版了国际标准书目著录总则(1SBD(G))。上述努力为文献信息描述提供了统一的框架,规定了描述的成分、次序、标记等,为各国文献描述的统一和规范创造了条件。
为了实施编目标准化,各国根据国际编目标准,建立了相应的实施条例或标准。1978年,根据国际编目标准调整的英美编目条例(AACR2)出版。我国在全国文献工作标准化技术委员会第6分委员会(目录著录分委员会)和中国图书馆学会的共同努力下,经北京图书馆等单位的参与,1983年7月正式发表了全国文献著录标准系列中的《文献著录总则》,其后,出版了各个分则。包括:
《普通图书著录规则》
《连续出版物著录规则》
《非书资料著录规则》
《地图资料著录规则》
《档案著录规则》
《古籍著录规则》
《检索期刊条目著录规则》
《文后参考文献著录规则》
这一系列文献著录规则,为各种文献,包括组织图书馆目录的文献资料对象以及组织期刊索引的处理对象的描述,建立了相应的著录标准。在上述标准中,著录总则是根据番类型文献的共同特点确定的文献著录原则、著录内容、格式和标记符号等的统一规定,其作用是规范和统一各类型文献著录标准的制订,以便建立统一的文献著录体系。各个分则则是根据某一类型文献特点制定的该类型文献著录的原则、内容、格式等的规定。一般情况下,著录标准的作用是为书目描述提供一个原则性的框架,不作为著录文献的直接依据。而同时应编制具体的著录规则或条例,作为文献著录的依据。例如国际书目著录标准系列公布后,紧随着发表的AACR2,即为依据ISBD确定的编目规则。但我国的国际标准系列中的各文献著录分则,多采用了两者结合的体例,既是著录的原则、框架的规范,同时也是具体的著录规则。它们与机读编码格式结合,成为文献界信息描述标准化的主流。
信息描述标准化进程中,近年来受到广泛关注的热点之一,是网络信息资源的描述问题,亦即元数据的记录问题。由于与传统信息资源相比,网络资源在资源类型、结构、形式、描述环境、描述主体等方面存在着不同,需要建立适合其资源特点的,更加完备、更加通用的、规范化的描述结构。90年代以来,世界图书馆界、计算机界、网络界的专业人员进行了许多努力,探索了通过完善图书馆机读编目格式加以记录和建立新的记录结构等不同的解决方式。书目文献界的一项成绩,是通过在MARC格式中增设描述网络信息资源的相应字段进行描述。与此同时,出版界、计算机界和书目文献界一起,并结合电子环境和技术的发展,共同创建了一系列新的描述规范,包括:
什么是元数据?一般认为,元数据是关于数据的数据,或关于数据的结构化的数据。对于元数据的含义,目前仍在探讨之中。从已有的论述看,元数据的含义是逐步发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。由于传统的书目数据与数字信息资源的描述数据本质上并无不同,因此,目前元数据这一术语实际上适用于各种类型信息资源的描述记录。在信息资源组织的实践中,一网络信息资源的描述数据是元数据,一电子文本的描述数据是元数据,一传统出版形式的编目数据也是元数据。元数据描述的对象,包括各种不同资源类型,它们可以是图书、期刊、磁带、录像带、缩微品,也可以是其中的论文、科技报告以及各种形式的网络信息资源等;描述的成分,通常是从信息资源中抽取出来的用于说明其特征、内容的数据,如题名,版本,出版数据,相关说明等。从目前使用的情况看,元数据的含义实际上与传统文献领域中的著录款目性质相同,是一种电子环境中使用的著录数据。因此本书将元数据与描述记录、文献记录作为同义词使用。一个元数据款目构成一个信息资源的基本数据,是检索系统的基本构成单元,它可以代表信息资源用来组织目录、索引、数据库、搜索引擎等检索系统。信息描述的目的,就是以元数据为中介,对信息资源进行各种操作。其作用包括:
二,信息描述的规范
信息资源的描述通常需要根据检索系统的要求,确定描述的成分和特征,按一定的次序和形式记录。为了一致、有效地对信息资源进行描述,便于不同机构之间的信息交换,信息描述通常应依据一定的描述规范进行。长期来不同领域的信息工作者,根据各领域信息资源的特点和检索的需要,进行了许多研究和探索,建立了一系列信息描述的规范和标准。其中,以书目文献领域描述标准化的努力最为典型文献描述标准,亦即文献著录标准,形成于20世纪70年代。是随着计算机在文献领域中的应用而逐步发展起来的。20世纪60年代进行的编目机读化的努力,增加了信息资源共享的可能性,使得文献描述标准化的重要性得到了充分重视。为了促进各国信息资源的交流和互换,国际文献界于70年代进行的国际标准书目著录(1SBD)项目,推动了编目界标准化的进程。1971年,国际图书馆协会联合会(1FLA)编目委员会率先颁布了单行著作国际标准书目著录(1SBD(M)),随后又推出了一系列以丛书、乐谱、地图资料、非书资料等为对象的书目描述的国际标准。为了进行各个标准之间的协调,于1976年又出版了国际标准书目著录总则(1SBD(G))。上述努力为文献信息描述提供了统一的框架,规定了描述的成分、次序、标记等,为各国文献描述的统一和规范创造了条件。
为了实施编目标准化,各国根据国际编目标准,建立了相应的实施条例或标准。1978年,根据国际编目标准调整的英美编目条例(AACR2)出版。我国在全国文献工作标准化技术委员会第6分委员会(目录著录分委员会)和中国图书馆学会的共同努力下,经北京图书馆等单位的参与,1983年7月正式发表了全国文献著录标准系列中的《文献著录总则》,其后,出版了各个分则。包括:
《普通图书著录规则》
《连续出版物著录规则》
《非书资料著录规则》
《地图资料著录规则》
《档案著录规则》
《古籍著录规则》
《检索期刊条目著录规则》
《文后参考文献著录规则》
这一系列文献著录规则,为各种文献,包括组织图书馆目录的文献资料对象以及组织期刊索引的处理对象的描述,建立了相应的著录标准。在上述标准中,著录总则是根据番类型文献的共同特点确定的文献著录原则、著录内容、格式和标记符号等的统一规定,其作用是规范和统一各类型文献著录标准的制订,以便建立统一的文献著录体系。各个分则则是根据某一类型文献特点制定的该类型文献著录的原则、内容、格式等的规定。一般情况下,著录标准的作用是为书目描述提供一个原则性的框架,不作为著录文献的直接依据。而同时应编制具体的著录规则或条例,作为文献著录的依据。例如国际书目著录标准系列公布后,紧随着发表的AACR2,即为依据ISBD确定的编目规则。但我国的国际标准系列中的各文献著录分则,多采用了两者结合的体例,既是著录的原则、框架的规范,同时也是具体的著录规则。它们与机读编码格式结合,成为文献界信息描述标准化的主流。
信息描述标准化进程中,近年来受到广泛关注的热点之一,是网络信息资源的描述问题,亦即元数据的记录问题。由于与传统信息资源相比,网络资源在资源类型、结构、形式、描述环境、描述主体等方面存在着不同,需要建立适合其资源特点的,更加完备、更加通用的、规范化的描述结构。90年代以来,世界图书馆界、计算机界、网络界的专业人员进行了许多努力,探索了通过完善图书馆机读编目格式加以记录和建立新的记录结构等不同的解决方式。书目文献界的一项成绩,是通过在MARC格式中增设描述网络信息资源的相应字段进行描述。与此同时,出版界、计算机界和书目文献界一起,并结合电子环境和技术的发展,共同创建了一系列新的描述规范,包括:
第二节 信息资源描述项目、标识和描述级次 (1)
信息资源的描述,通常是依据相应信息描述规范进行的,一般应选择信息资源的基本特征,以适合的方式加以描述。信息描述规范一般均规定基本描述项目、描述标识、描述级次等基本事项。下面主要依据我国文献著录标准,同时结合其他描述规范,对信息描述的项目、标点、详细级次等基本事项作一概要介绍。
一、信息描述项目
信息描述项目是用以揭示文献内容和特征的记录事项,亦称著录项目。著录项目是由记录的作用和文献特征决定的,一般应能根据信息资源的特点和信息组织的需要,有效揭示信息资源的基本特征。描述项目根据其描述特征之间的关系,可分为基本描述项目和描述子项目两部分。
1、基本描述项目
一个描述记录由若干大项组成,一个大项又可根据需要划分出若干小项,组成一个系统、完备的描述结构。不同信息资源类型及不同形式检索系统的描述项目不尽相同。下面对我国文献著录国家标准和都柏林核心集的基本描述项目作一概要介绍:我国国家标准《文献著录总则》规定的基本描述项目分为9个大项目,依次为:题名和责任者项;版本项;文献特殊细节项;出版发行项;载体形态项;丛编项;附注项;文献标准编号及有关记载项;提要项。上述各项中,题名是区别不同文献的一个重要特征,与责任者结合,可以充分识别一文献,是查找信息资源的一个重要途径。版本项对鉴别版本差别、文献更新情况直接有关;文献特殊细节项为某些特殊类型文献如连续出版物、地图等特征的著录所设置;出版发行项用以说明文献的出版情况;载体形态项,是对一个文献物质形态特征描述的项目,包括:数量、图、尺寸或开本、附件等,也是选择文献的一个重要因素;丛编项记录丛编文献的信息;附注项、文献标准编号及有关记载项进一步提供文献的相关材料,帮助用户充分了解信息资源;提要项是概括记录和评价文献内容的描述项目。上述9项可以提供一传统文献类型完整的书目数据,是识别文献,分析比较文献的基本依据。此外,一个完整的记录一般还包括标识项。
《都柏林核心集》N,j将其描述项目分为如下15个大项:
· 题名(Title)
指由创作者或出版者赋予资源的名称。
· 作者或创作者(AuthorOrCreator)
指负责创作资源知识内容的个人或组织。例如:文献作者、视频资源的艺术家、摄影师、插图作者
· 主题和关键词(SubjectandKeywords)
即资源的主题。通常以描述资源主题或内容的关键词或短语表达。鼓励使用控制词表或正式的分类法。
· 描述(Description)
资源内容的文字描述,包括文献类对象的文摘或视频资源的内容描述。
· 出版者(Publisher)
负责使资源以现有形式提供的实体,诸如出版社、大学的部门、团体实体等。
· 其他参与者(OtherContributor)
对资源作出重要智力贡献,但其贡献小于创作者字段中注明的个人或组织,因而没有在创作字段中注明的个人或组织。
· 日期(Date)
资源创建或提供的日期。推荐使用IS08601(http://WWW.w3.org/TR/NOTE—datetime)中规定的格式,采用8位数字,按照年年年年和年年年年—月月—日日的形式表示,例:1994年11月5日表示为1994—11—05。 ·
· 资源类型(ResourceType)
资源类型指网页、小说、诗歌、工作报告、技术报告、散文、词典等。根据系统间相互可操作性的需要,资源类型应从系列研讨会仍在发展的规范中选择。(见//WWW.sunsite.berkeley.edu/metatata/types.html列举的类型。)
· 格式(Format)
指资源的数据格式,或大小、持续时间等,用以识别显示或操作资源的软件和可能需要的硬件,根据相互可操作性的需要,格式也应该从系列研讨会仍在发展的规范中选择。
· 资源标识(Resourceldentifier)
用来识别资源的惟一的字符串或数字。例如,网络资源的URI和URN。其他全球生的具有惟一性的识别符如,国际标准书号ISBN,以及其他可作为此成分的选择依据的其他正式名称。
· 来源(Source)
用来识别该资源派生出来的资源的信息。通常情况下,此项只包括关于当前资源的信息,当认为对发现当前资源重要时,本项也可以包括派生出来的资源的元数据。
· 语言(Language)
指资源内容中使用的语言。推荐遵循RFCl766所规定的号码。(http://info.inter—net.isi.edu/in—notes/rfc/files/rfcl766.text)
· 关联(Relation)
指另一资源的标识符及与当前资源的关系。此成分用于揭示相关资源之间的联系。考虑到相互的可操作性,对关联的描述应从系列研讨会仍在发展的规范中选取。
· 覆盖范围(Coverage)
资源内容的空间和时间特征。空间范围指以地名或组配(例经度、纬度)表达的位置。时间范围指资源内容发生的时间,而不是指何时创建或提供的(后者属于日期项)。时间范围的表达通常使用规定的时期(例:新石器时代)或日期项推荐的日期、时间格式(http://WWW.w3.org/TR/NOTE-datetime)。
· 权限管理(RightManagement)
权限管理说明是一个联结与权限管理说明的标志符,是一个提供资源权限管理信息的机构的标志符
NOTES上述两种描述规范的项目,以不同的方式提供了信息资源描述的基本项目。两种描述规范中,《文献著录总则》项目是根据传统文献类型的描述需要和文献单位的操作要求,在长期实践的基础上提出来的;都柏林核心集则是根据网络信息资源的特点和网络环境下的描述要求设置的。虽然两者项目设置的数量不同,两者均完整概括了书目数据的基本信息,是识别信息资源,对其进行组织和检索的基本依据。必须指出,描述项目的确定,是与描述对象特征和检索系统的要求相联系的,针对不同的信息资源对象和信息组织环境,还可以根据需要进行增删或调整。以文献著录总则为例,除上述各项目外,特殊文献类型一般还设置特定的描述项目。如:地图资料按其特点设置了数学基础项,记录地图比例尺、地图投影特征。非书资料设有数量规格项、系列项,记录其数量、实际播放时间、材质、长度或型号、制式、色别、转速、声响等。特殊类型的网络资源也可根据其特点,增加相关的描述项目。
2.描述子项目
除设置基本描述项目外,为了准确揭示信息资源的特点,描述规范一般根据各项目信息资源特征的具体情况,在基本项目之下设置子项目或进行限定,规范该项目的描述。表3—1和表3—2分别为《文献著录总则》和《都柏林核心集》的详细描述限定。可以看出,两者的侧重有所不同,如,《文献著录总则》比较侧重传统文献的著录特征的限定,《都柏林核心集》NU更集中于网络信息资源特征的描述。此外,《都柏林核心集》在标识、语言、日期、范围等描述项目中推荐以控制词表或相关标准作为描述的规范,以保证描述的一致性。这从一个侧面说明了词汇控制在信息资源组织中的重要性。当然《都柏林核心集》对规范的推荐是没有约束力的,用户可以根据具体情况选择自由标引或描述,对各描述项目的限定也相对比较少。对有关各项目描述的一些具体要求,本书将在第四章中讨论。这样,通过对描述项目及子项的确定,基本上明确了对信息资源信息的描述和处理的内容对象。
二、描述的符号和文字
指用以分隔描述项目的专用辅助符号。采用辅助符号的作用,一是可以通过辅助符号的使用,克服语言障碍,方便地识别不同项目的含义,促进不同国家地区的描述记录之间的交流和互换;二是有利于信息组织和检索的现代化,便利机读处理。不同的描述规范,可以使用不同的描述符号。《文献著录总则》中采用的辅助符号,有著录项目标识符和描述内容标识符两种。著录项目标识符又称前置符, 置于著录项目之前,用来表示描述项目,依次为:
.一 各大项符号。
; 并列题名,并列丛编名。
: 副题名及说明题名文字、出版者或发行者、图书及其他形态、副丛编名、价格。
/ 第一责任者名, 不同著作方式的责任说明、同一责任者的合辑题名中的第二部分、第二出版地或发行地、尺寸、丛编编号。
, 分辑(卷)题名、相同著作方式的其他责任说明、出版日期、国际标准连续出版物编号、分段页码、 其他载体形态。 、
. 分辑(卷)次、附属丛编。
+ 附件
// 析出文献的出处。
描述项目标识符使用时的规则如下:
(1) 大项标识符“.一”占一格,小项标识符占两格。标识符前后不空格。描述文字回行时,标识符一般留在前一项末尾。在此情况下,符号“.一”可省略“一”。
(2) 重复描述一个项目时,须重复添加该项目的标识符号。大项第一小项本身无标识符号,重复时,应按有关规定添加。例:一上海:北平:商务印书馆,1935。
(3) 当某一著录项目省略或无著录内容时,同时删除其标识符。当后面的小项移动至大项前列时,省略其标识符号。内容识别符的作用是标识描述项目中的部分内容,通常位于描述项目的外部、中间或末尾。
责任者机构名、中国责任者时代、外国责任者国别及姓名原文、印制地、印制者、印制年、丛编项等。文献类型标识,自拟描述内容,如:自拟题名、经考出的责任者名、出版时间等。表示省略描述内容。表示推测或不确定的内容。不同责任者的合辑题名中第二部分及其责任说明、外文缩写。~ 起止连接。传统文献的描述通常均使用上述标识符号系统。网络信息资源的描述则一般采用易于理解的文字标识,直接将表达该字段的语词作为该字段的标识符。例如,题名的标识即为“题名”、资源标识(Resourceldentiner)的标识即为“标识”。描述用文字,指描述时使用的语种、字形、字体。为了正确表达信息资源的内容特征,便于用户识别,减少检索误差,描述文字必须规范。《文献著录总则》规定:文种,依据文献本身文字描述;字形,一律采用国家公布的简化字,在文献文字有错误时,一般应照录,再在其后注明正确文字,用方括号括起;题名责任者外的数字,一律采用阿拉伯数字记录。
信息资源的描述,通常是依据相应信息描述规范进行的,一般应选择信息资源的基本特征,以适合的方式加以描述。信息描述规范一般均规定基本描述项目、描述标识、描述级次等基本事项。下面主要依据我国文献著录标准,同时结合其他描述规范,对信息描述的项目、标点、详细级次等基本事项作一概要介绍。
一、信息描述项目
信息描述项目是用以揭示文献内容和特征的记录事项,亦称著录项目。著录项目是由记录的作用和文献特征决定的,一般应能根据信息资源的特点和信息组织的需要,有效揭示信息资源的基本特征。描述项目根据其描述特征之间的关系,可分为基本描述项目和描述子项目两部分。
1、基本描述项目
一个描述记录由若干大项组成,一个大项又可根据需要划分出若干小项,组成一个系统、完备的描述结构。不同信息资源类型及不同形式检索系统的描述项目不尽相同。下面对我国文献著录国家标准和都柏林核心集的基本描述项目作一概要介绍:我国国家标准《文献著录总则》规定的基本描述项目分为9个大项目,依次为:题名和责任者项;版本项;文献特殊细节项;出版发行项;载体形态项;丛编项;附注项;文献标准编号及有关记载项;提要项。上述各项中,题名是区别不同文献的一个重要特征,与责任者结合,可以充分识别一文献,是查找信息资源的一个重要途径。版本项对鉴别版本差别、文献更新情况直接有关;文献特殊细节项为某些特殊类型文献如连续出版物、地图等特征的著录所设置;出版发行项用以说明文献的出版情况;载体形态项,是对一个文献物质形态特征描述的项目,包括:数量、图、尺寸或开本、附件等,也是选择文献的一个重要因素;丛编项记录丛编文献的信息;附注项、文献标准编号及有关记载项进一步提供文献的相关材料,帮助用户充分了解信息资源;提要项是概括记录和评价文献内容的描述项目。上述9项可以提供一传统文献类型完整的书目数据,是识别文献,分析比较文献的基本依据。此外,一个完整的记录一般还包括标识项。
《都柏林核心集》N,j将其描述项目分为如下15个大项:
· 题名(Title)
指由创作者或出版者赋予资源的名称。
· 作者或创作者(AuthorOrCreator)
指负责创作资源知识内容的个人或组织。例如:文献作者、视频资源的艺术家、摄影师、插图作者
· 主题和关键词(SubjectandKeywords)
即资源的主题。通常以描述资源主题或内容的关键词或短语表达。鼓励使用控制词表或正式的分类法。
· 描述(Description)
资源内容的文字描述,包括文献类对象的文摘或视频资源的内容描述。
· 出版者(Publisher)
负责使资源以现有形式提供的实体,诸如出版社、大学的部门、团体实体等。
· 其他参与者(OtherContributor)
对资源作出重要智力贡献,但其贡献小于创作者字段中注明的个人或组织,因而没有在创作字段中注明的个人或组织。
· 日期(Date)
资源创建或提供的日期。推荐使用IS08601(http://WWW.w3.org/TR/NOTE—datetime)中规定的格式,采用8位数字,按照年年年年和年年年年—月月—日日的形式表示,例:1994年11月5日表示为1994—11—05。 ·
· 资源类型(ResourceType)
资源类型指网页、小说、诗歌、工作报告、技术报告、散文、词典等。根据系统间相互可操作性的需要,资源类型应从系列研讨会仍在发展的规范中选择。(见//WWW.sunsite.berkeley.edu/metatata/types.html列举的类型。)
· 格式(Format)
指资源的数据格式,或大小、持续时间等,用以识别显示或操作资源的软件和可能需要的硬件,根据相互可操作性的需要,格式也应该从系列研讨会仍在发展的规范中选择。
· 资源标识(Resourceldentifier)
用来识别资源的惟一的字符串或数字。例如,网络资源的URI和URN。其他全球生的具有惟一性的识别符如,国际标准书号ISBN,以及其他可作为此成分的选择依据的其他正式名称。
· 来源(Source)
用来识别该资源派生出来的资源的信息。通常情况下,此项只包括关于当前资源的信息,当认为对发现当前资源重要时,本项也可以包括派生出来的资源的元数据。
· 语言(Language)
指资源内容中使用的语言。推荐遵循RFCl766所规定的号码。(http://info.inter—net.isi.edu/in—notes/rfc/files/rfcl766.text)
· 关联(Relation)
指另一资源的标识符及与当前资源的关系。此成分用于揭示相关资源之间的联系。考虑到相互的可操作性,对关联的描述应从系列研讨会仍在发展的规范中选取。
· 覆盖范围(Coverage)
资源内容的空间和时间特征。空间范围指以地名或组配(例经度、纬度)表达的位置。时间范围指资源内容发生的时间,而不是指何时创建或提供的(后者属于日期项)。时间范围的表达通常使用规定的时期(例:新石器时代)或日期项推荐的日期、时间格式(http://WWW.w3.org/TR/NOTE-datetime)。
· 权限管理(RightManagement)
权限管理说明是一个联结与权限管理说明的标志符,是一个提供资源权限管理信息的机构的标志符
NOTES上述两种描述规范的项目,以不同的方式提供了信息资源描述的基本项目。两种描述规范中,《文献著录总则》项目是根据传统文献类型的描述需要和文献单位的操作要求,在长期实践的基础上提出来的;都柏林核心集则是根据网络信息资源的特点和网络环境下的描述要求设置的。虽然两者项目设置的数量不同,两者均完整概括了书目数据的基本信息,是识别信息资源,对其进行组织和检索的基本依据。必须指出,描述项目的确定,是与描述对象特征和检索系统的要求相联系的,针对不同的信息资源对象和信息组织环境,还可以根据需要进行增删或调整。以文献著录总则为例,除上述各项目外,特殊文献类型一般还设置特定的描述项目。如:地图资料按其特点设置了数学基础项,记录地图比例尺、地图投影特征。非书资料设有数量规格项、系列项,记录其数量、实际播放时间、材质、长度或型号、制式、色别、转速、声响等。特殊类型的网络资源也可根据其特点,增加相关的描述项目。
2.描述子项目
除设置基本描述项目外,为了准确揭示信息资源的特点,描述规范一般根据各项目信息资源特征的具体情况,在基本项目之下设置子项目或进行限定,规范该项目的描述。表3—1和表3—2分别为《文献著录总则》和《都柏林核心集》的详细描述限定。可以看出,两者的侧重有所不同,如,《文献著录总则》比较侧重传统文献的著录特征的限定,《都柏林核心集》NU更集中于网络信息资源特征的描述。此外,《都柏林核心集》在标识、语言、日期、范围等描述项目中推荐以控制词表或相关标准作为描述的规范,以保证描述的一致性。这从一个侧面说明了词汇控制在信息资源组织中的重要性。当然《都柏林核心集》对规范的推荐是没有约束力的,用户可以根据具体情况选择自由标引或描述,对各描述项目的限定也相对比较少。对有关各项目描述的一些具体要求,本书将在第四章中讨论。这样,通过对描述项目及子项的确定,基本上明确了对信息资源信息的描述和处理的内容对象。
二、描述的符号和文字
指用以分隔描述项目的专用辅助符号。采用辅助符号的作用,一是可以通过辅助符号的使用,克服语言障碍,方便地识别不同项目的含义,促进不同国家地区的描述记录之间的交流和互换;二是有利于信息组织和检索的现代化,便利机读处理。不同的描述规范,可以使用不同的描述符号。《文献著录总则》中采用的辅助符号,有著录项目标识符和描述内容标识符两种。著录项目标识符又称前置符, 置于著录项目之前,用来表示描述项目,依次为:
.一 各大项符号。
; 并列题名,并列丛编名。
: 副题名及说明题名文字、出版者或发行者、图书及其他形态、副丛编名、价格。
/ 第一责任者名, 不同著作方式的责任说明、同一责任者的合辑题名中的第二部分、第二出版地或发行地、尺寸、丛编编号。
, 分辑(卷)题名、相同著作方式的其他责任说明、出版日期、国际标准连续出版物编号、分段页码、 其他载体形态。 、
. 分辑(卷)次、附属丛编。
+ 附件
// 析出文献的出处。
描述项目标识符使用时的规则如下:
(1) 大项标识符“.一”占一格,小项标识符占两格。标识符前后不空格。描述文字回行时,标识符一般留在前一项末尾。在此情况下,符号“.一”可省略“一”。
(2) 重复描述一个项目时,须重复添加该项目的标识符号。大项第一小项本身无标识符号,重复时,应按有关规定添加。例:一上海:北平:商务印书馆,1935。
(3) 当某一著录项目省略或无著录内容时,同时删除其标识符。当后面的小项移动至大项前列时,省略其标识符号。内容识别符的作用是标识描述项目中的部分内容,通常位于描述项目的外部、中间或末尾。
责任者机构名、中国责任者时代、外国责任者国别及姓名原文、印制地、印制者、印制年、丛编项等。文献类型标识,自拟描述内容,如:自拟题名、经考出的责任者名、出版时间等。表示省略描述内容。表示推测或不确定的内容。不同责任者的合辑题名中第二部分及其责任说明、外文缩写。~ 起止连接。传统文献的描述通常均使用上述标识符号系统。网络信息资源的描述则一般采用易于理解的文字标识,直接将表达该字段的语词作为该字段的标识符。例如,题名的标识即为“题名”、资源标识(Resourceldentiner)的标识即为“标识”。描述用文字,指描述时使用的语种、字形、字体。为了正确表达信息资源的内容特征,便于用户识别,减少检索误差,描述文字必须规范。《文献著录总则》规定:文种,依据文献本身文字描述;字形,一律采用国家公布的简化字,在文献文字有错误时,一般应照录,再在其后注明正确文字,用方括号括起;题名责任者外的数字,一律采用阿拉伯数字记录。
第二节 信息资源描述项目、标识和描述级次 (2)
三、描述格式和详略级次
1.描述格式
著录格式是指描述记录内各个描述项目的记录次序和表述方式。按照文献著录项目的职能,将其组织为著录正文和提要两大部分。形式如图3—1所示。
其中,著录正文集中描述文献外表特征的各项,是款目的主体。提要项则是通过内容的介绍、评述,深化对文献的揭示程度。用户可以通过著录正文,识别和确认文献资源,进行基本的操作,在没有提要的情况下,也可以独立使用。提要项主要帮助用户了解文献内容,进行选择和判断。在计算机检索系统中,也可用于检索,使查找更加有效。
《都柏林核心集》对元数据的显示界面,在OCLC的CORC系统中显示形式如图3—2所示,但在实际应用环境中,除不使用上述符号外,本质上并无不同。描述规范一般根据用户使用的不同需要,规定不同的详略级次。根据文献机杉质、功能和设备条件,《文献著录总则》将著录项目规定为主要项目和选择项目两种。录的详略程度,把著录项目划分为三级:
《文献著录总则》的主要项目是识别文献必备的项目,包括:题名和责任者项目削名,第一责任者,版本项,出版发行项的出版地或发行地、出版者或发行者、出版日斑行日期、载体形态项。选择项目为描述中供选择使用的项目,包括主要项目外的所芒描述项目。
仅记录主要项目的称为简要级次,一般为小型文献单位或编制书本式目录使用;在记录主要项目的同时,记录部分选择项目的,为基本级次,这是文献单位实践中最常用的级次;记录主要项目和全部选择项目的,称为详细级次,可提供一文献的全部书目信息,适合于国家书目或集中编目。
网络资源组织中,对信息资源的描述则更加灵活,未设置明确的限制。不同等级描述级次的规定,在保持一致性的同时,为使描述具有灵活性创造了条件,这是目前使用的基本方法。大型数据库为了确保数据完备,一般要求其信息资源的描述至少保持在基本级次。
《都柏林核心集》的最低限度元数据推荐项目为:题名、标识符、出版者、日期、格式、主题、类型。但由于网络信息资源的特点以及处理主体对象的变化,该规范并未规定必须著录的数据,见图3—3,图3—4,图3—5。
四、描述信息源
又称著录信息源、著录根据,指进行信息资源描述时描述信息的来源和出处。在不同信息源记载有出入时,应以何处提供的记载为准。确定描述信息源是正确、一致地进行描述记录的保证。
描述信息的基本来源是描述信息资源本身。但一信息资源是由多个部分组成的。不同的部分也可能同时涉及同一文献特征。因此,通常应明确:第一,从何处获得描述数据;第二,对一描述项目,应以何处提供的描述信息为准。一般应根据文献类型,指定一个主要的信息源;在不充分时,再使用其他来源。
图书的主要信息源是书名页:书名页上记载有题名、责任者、出版事项等文献特征,信息准确、可靠,因此是描述的主要根据。特别是著录题名与责任者项目时,应以书名页为准。版权页上记载的文献特征最详细,在著录版本项和出版项、发行项时,应以此为准。除题名页、版权页外,前言、附录等也可选择必要著录项目。但同一项目的内容在各处不一致时,应以主要信息源为准,并在附注项说明。有些项目很难由文献的某一部分获得,如载体形态项,就需要从整个文献中进行选择。在文献本身不能提供某些描述项目的内容时,为了完整、准确地记录文献特征,描述人员有必要利用有关工具,如规范文档、工具书等进行查找。各种类型资源有其不同特点,其描述信息源也各有不同,一般应根据资源类型,参看各著录分则,确定其描述信息源。网络资源,无论是采用HTML语言,还是XMI。语言,在其文本的头标部分,均建有关于该信息资源的元数据。对网络资源的描述,——般应首先参考头标区元数据标识字段中记录的有关数据。此外,信息资源组成的各个部分本身,如题名、作者、建立信息资源的机构、信息资源的URL数据,有关信息资源的说明文字等,均是网络信息资源描述的信息源,应根据网络资源的构成特点,加以确定。对某些数据,还可以参考该信息资源以外的参考工具等,予以记录。
第三节 检索点和规范文档
一,检索点
检索点是指检索信息资源所使用的题名、责任者、分类号、主题词等各种供检索使用的数据。
信息描述的目的,是为了在确认信息资源、提供概要内容信息的同时,供检索使用。一般应根据检索的设备条件选择检索点,并进行相应处理,以便组织检索系统。
在手工检索系统中,通常根据系统的特点,以文献特征为标目,编制相应款目,作为建立检索系统的基础。标目即检索点,是记录中用来作为排检依据的资源特征。标目有两个作甩,其一,作为排检的依据,确定一款目在检索系统中的位置,供检索查找;其二,决定款目的性质,供组织相应检索工具使用。
在卡片式目录中,一般在通用描述记录的基础上,设置标目,编制不同类型的款目。一文献可根据建立检索工具的需要设置多个款目,供编制不同的检索系统使用。例:我国文献单位一般编制题名、责任者、分类、主题四种性质的款目,组织相应的检索目录。同时,在这四种款目中,又可以根据描述的具体情况,编制出不同款目,例如,在作者标目中,可以有主要作者、合作者、译者……等不同款目,供用户从不同作者的角度进行查找。书本式目录或索引中,通常只编制一条款目,按一种标目排列,其余检索途径通过索引提供。我国出版的书目一般按题名标目排列款目,文献检索刊物则按分类序列款目,同时均分别附责任者、分类、主题或题名、责任者、主题等索引,作为检索人口。在计算机检索系统中,主要是根据信息资源的特点和使用需要,确定查找的信息,规定可检索字段和检索方式。对不同对象、用途的系统,往往根据其需要确定检索点;同时规定相应检索途径和检索方式,如关键词检索、相关字段之间的组配检索等。与手工检索系统相比,机械检索系统中检索点的范围比较宽,就其功能而言,各种输入的描述数据都可以作为检索依据,可根据需要设定。一般来说,任何检索系统都存在检索点的选择问题。检索点的选择应根据信息资源的特点和用户需要、设备条件等多种因素确定。检索点通常应具有检索价值、适用、规范、一致等特点。限于条件,手工检索系统,无论目录或索引,对标目即检索点的选择更为严格。
二.题名检索点的选择
名检索点是建立题名目录的依据,可以从题名角度查找信息资源,是检索文献的重要途径之一。目前文献单位建立的检索系统中,题名检索点通常选择如下的做法:
① 文献描述中著录的正题名一般直接选作标目。
② 适当选择副题名和附注项中的合辑题名作标目。通常只选择有实际检索意义,比正题名更能反映文献主题的副题名作标目,没有实际检索意义的副题名不作标目。
③ 并列题名在我国中文手工检索工具中一‘般不选作标目。目。
④ 一文献的题名检索点一般不宜超过两个,但题名分析款目不受此限制,可根据需要卜人责任者检索点的选择责任者检索点选择的方法如下:描述记录中第一责任者、两人合著中的第二个责任者名称均可以作标目。但3人以上合著时只以第一责任者名称作标目。例《图书馆自动化基础教程》为傅守灿、陈文广合著,两人均可作为检索标目;《简明中国图书分类法教程》由陈树年等5人编著,只选择陈树年一人为标目,其余参加者一般不作检索标目。如可能,文献责任者中记录的其他责任者,包括注释者、译者、编译者、校点者、整理者、绘图者、摄影者等亦可选择作为标目。
附注项著录的责任者,以及其他有关责任者,一般不作标目,但在必要时,著名学者或著名著作的责任者也可作标目。
如果编者为出版社则不编制责任者综合款目。当分析出来的材料的责任者与原书责任者不同时,应选其为分析款目的责任者检索点。一文献责任者检索点的数量一般不超过4个为宜。团体作者、会议等的标目的选择方法大体与个人作者标目选择特点相同。名称规范档规范文档是信息组织的一种需要,它是对元数据记录的标目进行控制、跟踪、维护工具。,包括名称规范档、主题规范档等。名称规范档是一种由名称记录组成的文献标目它是进行规范控制的工具。其处理的范围,包括人名、机构团体名、著作题名等。规范制的作用是:
《都柏林核心集》对元数据的显示界面,在OCLC的CORC系统中显示形式如图3—2所示,但在实际应用环境中,除不使用上述符号外,本质上并无不同。描述规范一般根据用户使用的不同需要,规定不同的详略级次。根据文献机杉质、功能和设备条件,《文献著录总则》将著录项目规定为主要项目和选择项目两种。录的详略程度,把著录项目划分为三级:
《文献著录总则》的主要项目是识别文献必备的项目,包括:题名和责任者项目削名,第一责任者,版本项,出版发行项的出版地或发行地、出版者或发行者、出版日斑行日期、载体形态项。选择项目为描述中供选择使用的项目,包括主要项目外的所芒描述项目。
仅记录主要项目的称为简要级次,一般为小型文献单位或编制书本式目录使用;在记录主要项目的同时,记录部分选择项目的,为基本级次,这是文献单位实践中最常用的级次;记录主要项目和全部选择项目的,称为详细级次,可提供一文献的全部书目信息,适合于国家书目或集中编目。
网络资源组织中,对信息资源的描述则更加灵活,未设置明确的限制。不同等级描述级次的规定,在保持一致性的同时,为使描述具有灵活性创造了条件,这是目前使用的基本方法。大型数据库为了确保数据完备,一般要求其信息资源的描述至少保持在基本级次。
《都柏林核心集》的最低限度元数据推荐项目为:题名、标识符、出版者、日期、格式、主题、类型。但由于网络信息资源的特点以及处理主体对象的变化,该规范并未规定必须著录的数据,见图3—3,图3—4,图3—5。
四、描述信息源
又称著录信息源、著录根据,指进行信息资源描述时描述信息的来源和出处。在不同信息源记载有出入时,应以何处提供的记载为准。确定描述信息源是正确、一致地进行描述记录的保证。
描述信息的基本来源是描述信息资源本身。但一信息资源是由多个部分组成的。不同的部分也可能同时涉及同一文献特征。因此,通常应明确:第一,从何处获得描述数据;第二,对一描述项目,应以何处提供的描述信息为准。一般应根据文献类型,指定一个主要的信息源;在不充分时,再使用其他来源。
图书的主要信息源是书名页:书名页上记载有题名、责任者、出版事项等文献特征,信息准确、可靠,因此是描述的主要根据。特别是著录题名与责任者项目时,应以书名页为准。版权页上记载的文献特征最详细,在著录版本项和出版项、发行项时,应以此为准。除题名页、版权页外,前言、附录等也可选择必要著录项目。但同一项目的内容在各处不一致时,应以主要信息源为准,并在附注项说明。有些项目很难由文献的某一部分获得,如载体形态项,就需要从整个文献中进行选择。在文献本身不能提供某些描述项目的内容时,为了完整、准确地记录文献特征,描述人员有必要利用有关工具,如规范文档、工具书等进行查找。各种类型资源有其不同特点,其描述信息源也各有不同,一般应根据资源类型,参看各著录分则,确定其描述信息源。网络资源,无论是采用HTML语言,还是XMI。语言,在其文本的头标部分,均建有关于该信息资源的元数据。对网络资源的描述,——般应首先参考头标区元数据标识字段中记录的有关数据。此外,信息资源组成的各个部分本身,如题名、作者、建立信息资源的机构、信息资源的URL数据,有关信息资源的说明文字等,均是网络信息资源描述的信息源,应根据网络资源的构成特点,加以确定。对某些数据,还可以参考该信息资源以外的参考工具等,予以记录。
第三节 检索点和规范文档
一,检索点
检索点是指检索信息资源所使用的题名、责任者、分类号、主题词等各种供检索使用的数据。
信息描述的目的,是为了在确认信息资源、提供概要内容信息的同时,供检索使用。一般应根据检索的设备条件选择检索点,并进行相应处理,以便组织检索系统。
在手工检索系统中,通常根据系统的特点,以文献特征为标目,编制相应款目,作为建立检索系统的基础。标目即检索点,是记录中用来作为排检依据的资源特征。标目有两个作甩,其一,作为排检的依据,确定一款目在检索系统中的位置,供检索查找;其二,决定款目的性质,供组织相应检索工具使用。
在卡片式目录中,一般在通用描述记录的基础上,设置标目,编制不同类型的款目。一文献可根据建立检索工具的需要设置多个款目,供编制不同的检索系统使用。例:我国文献单位一般编制题名、责任者、分类、主题四种性质的款目,组织相应的检索目录。同时,在这四种款目中,又可以根据描述的具体情况,编制出不同款目,例如,在作者标目中,可以有主要作者、合作者、译者……等不同款目,供用户从不同作者的角度进行查找。书本式目录或索引中,通常只编制一条款目,按一种标目排列,其余检索途径通过索引提供。我国出版的书目一般按题名标目排列款目,文献检索刊物则按分类序列款目,同时均分别附责任者、分类、主题或题名、责任者、主题等索引,作为检索人口。在计算机检索系统中,主要是根据信息资源的特点和使用需要,确定查找的信息,规定可检索字段和检索方式。对不同对象、用途的系统,往往根据其需要确定检索点;同时规定相应检索途径和检索方式,如关键词检索、相关字段之间的组配检索等。与手工检索系统相比,机械检索系统中检索点的范围比较宽,就其功能而言,各种输入的描述数据都可以作为检索依据,可根据需要设定。一般来说,任何检索系统都存在检索点的选择问题。检索点的选择应根据信息资源的特点和用户需要、设备条件等多种因素确定。检索点通常应具有检索价值、适用、规范、一致等特点。限于条件,手工检索系统,无论目录或索引,对标目即检索点的选择更为严格。
二.题名检索点的选择
名检索点是建立题名目录的依据,可以从题名角度查找信息资源,是检索文献的重要途径之一。目前文献单位建立的检索系统中,题名检索点通常选择如下的做法:
① 文献描述中著录的正题名一般直接选作标目。
② 适当选择副题名和附注项中的合辑题名作标目。通常只选择有实际检索意义,比正题名更能反映文献主题的副题名作标目,没有实际检索意义的副题名不作标目。
③ 并列题名在我国中文手工检索工具中一‘般不选作标目。目。
④ 一文献的题名检索点一般不宜超过两个,但题名分析款目不受此限制,可根据需要卜人责任者检索点的选择责任者检索点选择的方法如下:描述记录中第一责任者、两人合著中的第二个责任者名称均可以作标目。但3人以上合著时只以第一责任者名称作标目。例《图书馆自动化基础教程》为傅守灿、陈文广合著,两人均可作为检索标目;《简明中国图书分类法教程》由陈树年等5人编著,只选择陈树年一人为标目,其余参加者一般不作检索标目。如可能,文献责任者中记录的其他责任者,包括注释者、译者、编译者、校点者、整理者、绘图者、摄影者等亦可选择作为标目。
附注项著录的责任者,以及其他有关责任者,一般不作标目,但在必要时,著名学者或著名著作的责任者也可作标目。
如果编者为出版社则不编制责任者综合款目。当分析出来的材料的责任者与原书责任者不同时,应选其为分析款目的责任者检索点。一文献责任者检索点的数量一般不超过4个为宜。团体作者、会议等的标目的选择方法大体与个人作者标目选择特点相同。名称规范档规范文档是信息组织的一种需要,它是对元数据记录的标目进行控制、跟踪、维护工具。,包括名称规范档、主题规范档等。名称规范档是一种由名称记录组成的文献标目它是进行规范控制的工具。其处理的范围,包括人名、机构团体名、著作题名等。规范制的作用是:
规范文档的建立一般采用累积的方法。在信息资源描述的过程中,确定一内容对象的使用形式,将该对象的不同形式与其参见,通过这一方式,引向该语词。在目前情况下通常采用标准的文档系统。具体的文献单位,可以将本系统使用的专门文档与标准化文档结合。
本节参照北京图书馆的名称规范档的有关规定,概要讨论题名、人名、机构团体名称的规范文档的建立问题。
1.规范控制的方法
名称规范档通常由规范款目、参照款目、说明款目三种款目类型组成。规范款目是对检索工具中使用的规范标目亦即统一标目及其有关参照的完整记录。它是构成规范文档的主体。规范款目共设置七个著录项目。
参照款目是一种引导用户从非规范标目查检对应的规范标目或从一规范标目查检另相关的规范标目的款目。共设有三个著录项目。
明款目则是关于规范档编制规范的说明,包括标目的选择方法、组织原则、目录使
用方法等。
编目机构名称,编目条例或标准、编目规范数据号
2.名称规范控制
名称规范控制是根据确定标目的需要,规定统一使用名称的活动,范围包括人名、团阵名、题名等。通常需要在集中同一对象的各种名称的同时,依据一定的规则,对名称及其形式加以选择和处理。
名称规范处理一般需进行以下处理:
1.选择以何种名称作为使用的规范名称;
2.确定规范名称的明确表达形式;
3.确定款目词,并对名称作必要的附加说明各种名称类型的特点加以处理。以便对相同或相似名称加以区分,并根据下面对名称规范控制中各种基本的名称类型的规范处理作一概要分析.
1) 人名规范控制
一个作者往往有多个名称。例如:姓名、别名、笔名、艺名、室名、法名、封号等名称。在一作者使用或存在多种名称的情况下,为了便于集中,有必要确定统一的名称作为著录的依据,以便集中同一人物的有关信息资源。我国的一般的做法是:选择通用的名称为标目。一般可选择著作中出现最多的署名为标目。可以是本名,也可以是笔名。规范名称除记录选择的名称外,应包括必要的附加成分进行修饰或说明。附加成分包括民族、朝代、国别、原文名称、性别、生卒年等。当个人名称的主要成分相同时,应通过增加生卒年、性别、学科职业、籍贯等附加成分加以区分。例:许杰(地质学家1901—1989);许杰(作家1901一 );许杰(高级经济师)。
外国人名中西方语言及有关国,家人的姓名,取其汉译姓氏部分为名称标目的主要部分,对日本、朝鲜、越南、新加坡、匈牙利等国及海外华人姓名,其姓名与我国汉族人姓名类似,1R汉译顺序著录。著录时,在姓名前注明其所在历史时期的国别简称;在姓名后,应尽量注明性别、原文名称、生卒年等附加成分。例:(英)达雷尔(Durr,11,LawrenceGeorgel912一 );(日)川端康成(KawabataYasunari 1899—1972);(美)李政道(1926一 )。在有多种中译名,难以判断时,原则上取其汉译姓氏、简称或惯称为标目。例如:(美)杰克·伦敦(Jack London 1976—1916);(法)戴高乐(de Gaulle,Charles 1890—1970)。当一个著者名称为若干人的合作笔名时,应为该合作笔名、各个人名称分别作一规范款目,并建立它们之间的相关参照关系。例如:马铁丁为郭小川、陈笑雨、张铁夫的合用笔名,应同时为马铁丁及王人分别编制规范款目。如按上面方法仍无法确定规范人名时,按文献机构已经编目的名称为标目。
2) 团体责任者规范控制
团体名称包括政府机关、政党组织、企事业单位、学术机构、社会团体等的名称。为了确保团体名称的选取具有简明性、惟一性、一致性,通常需要通过规范档的方式加以控制。我国文献机构对团体名称的规范一般采用以下做法:国家机关名称一般直接选择其通用名称为统一标目,并在确保明确性的同时,尽可能采用简短的形式。具体如下:全国人大、中央国家机关的名称前省略“中华人民共和国”,直接以该机构的名称作标目。例:国务院、教育部、最高人民法院等。下属机构不加上级单位名称无法加以区分时,统一标目应加上级单位名称。例国务院侨务办公室、铁道部计划司、浙江教育局等。
下属机构不加上级单位名称,可以与其他单位区分时,可直接选择作为统一标目。例新闻出版署、中国软件技术开发中心。
中国共产党各级组织机构的统一标目,按三种情况选取
为了使标目一致,会议名称标目一般按会议名称、届、次、时间、地点著录。例:国际图‘联大会(62:1996:北京)、上海国际电影节(4:1990:上海)等 .名称发生变化时,或具有不同的名称时,一般应规定规范标目,并与相应标目建立参照。 新称与旧称的选择,在同为一个机构时,通常使用新名,但如成为另外一个不同的机构时,分别使用,同时互相作参见。例:以“信息产业部”为统一标目建立规范款目的同时,为原来独立设置的“机械电子工业部”、“电子工业部”、“第四机械工业部”等各建一个统一规范款目,并在其附注中,说明该机构变迁情况以及新旧标目的参照关系。
3) 题名规范控制
题名规范包括对一文献具有多个题名以及根据丛编题名、多卷书、连续出版物题名等的控制需要进行的规范。采用的方法包括:
一著作有多个不同题名,或不同版本、译本使用不同题名时,选用其中最有影响、有代表性的题名为统一题名,其余名称作单纯参照,指向统一题名。例如:红楼梦又名石头记、程甲本红楼梦,可选择红楼梦为统一题名;简爱又译为孤女飘零记、简爱自传、英文原名为JaneEyre等,可选择简爱为统一题名。在采用一文献基本素材的基础上,以不同体裁、形式出版的文献,一般不采用统一题名的方式,但通过规范其题名标目的方法,在正题名后注明版本、体裁、形式,以便集中。例如:水浒传;水浒传:少年版;水浒传:电视连续剧;水浒传:改写本等。外文翻译作品中,译名相同,但外文原文不同,实际上为不同文献时,应将外文原名著录在其后,并为外文名作单纯参照。例,同翻译为《生活在美国》的两本书,一本的原名为LivingintheUSA,另一本的原名为LifeintheUSA,就应按上述方式处理。丛书、多卷书、连续出版物的题名标目,应按相应的著录规范进行著录,一般不作统一标目,但如出现丛书、多卷书、连续出版物的题名在出版过程中发生变化,或有其他文献名称时,则应建立统一题名。一般可使用原书名或影响比较大的名称为统一题名,并为其他名称作单纯参照。
第四节 计算机编码(1)
一、计算机编码及其作用
在现代信息检索系统中,描述记录通常是以编码的形式提供,供计算机操作处理的。其形式一般是根据记录成分,将其分解成可以识别的、相对独立的部分,即字段或子字段,并通过指定的标识,如数字、字母或符号编码进行标示。如:我国的MARC代码用700作标识,表示该描述数据为个人责任者;在HTMI。语言中,则用<author>作者名称</author~>加以标示。
采用编码方式的作用,主要是有助于根据记录成分的特点和使用需要,进行各种操作和处理,包括:
在现代信息检索系统中,描述记录通常是以编码的形式提供,供计算机操作处理的。其形式一般是根据记录成分,将其分解成可以识别的、相对独立的部分,即字段或子字段,并通过指定的标识,如数字、字母或符号编码进行标示。如:我国的MARC代码用700作标识,表示该描述数据为个人责任者;在HTMI。语言中,则用<author>作者名称</author~>加以标示。
采用编码方式的作用,主要是有助于根据记录成分的特点和使用需要,进行各种操作和处理,包括:
供描述记录使用的计算机编码有许多类型,其中,图书馆、文献单位使用的MARC格式是使用时间最长的编码格式;在网络环境下使用较多的则是SGMI语言中的HTMI以及XMI语言等,下面分别概要介绍。
二、MARC格式
机读编目格式(MachineReadableCatalogingFormat,简称MARC格式)是根据文献特点和文献机构之间信息交换的需要建立的标准化的计算机可读形式。美国国会图书馆自1964年开始探讨将图书馆目录转换为机读形式的可能性,并在以后进行了一系列机读格式的研究。1966年,为满足书目数据日常操作处理的需要,美国国会图书馆设计出第一个图书机读编目格式,称为MARCl;1967年经过修改,出版了第二版,并投入使用。接着,英国也投入了英国国家机读目录格式的开发工作,并于1969年开始发行磁带。1973年,国际标准化组织,在参考当时美、英两国使用的机读编目格式的基础上,将其格式结构作为国际标准(1S02709-—1973)颁布,规定了MARC格式的结构。此后,许多国家、地区、国际组织按照这一标准,设计了自己的MARC格式。为了提供一个方便各国书目机构和国家图书馆进行机读书目交换的机读格式,t977年国际图联编制出版了UNIMARC,并在1985年修订再版。我国图书馆界目前使用的标准机读目录格式为《中国机读目录格式》,简称CNMARC。该编目格式遵从《文献目录信息交换磁带格式》(1S02709—1981),由北京图书馆自动化发展部编制,规定了专著、连续出版物等形式的编码形式,主要供国内图书情报部门进行书目描述使用;机读目录格式中,一个书目记录通常由四部分组成:
(1)记录头标区 (2) 地址目次区 (3) 数据字段区 (4) 记录分隔符
下面为一个编日记录组成的概略结构示意图:
《中国机读目录格式》数据字段区的功能块是10个,依次为:
0一标识块
1一编码信息块
2一著录信息块
3一附注块
4一连接款目块
5一相关题名块
6一主题分析块
7一责任者块 、
8一国际使用块
9一国内使用块
按照字符输入的不同需要,数据字段通常又可以分为定长字段和变长字段两种。前者长度固定,后者事先未作规定,分别供不同数据输入时使用。
数据区中各种字段的进一步展开,是通过特定标识符号来标示的。所使用的标识符共有三种,依次为字段标识符、指示符和子字段标识符,此外还没有必要的分隔符号,
① 字段标识符 ② 子字段标识符 ③ 指示符
例如600个人名称主题字段中,第一指示符未定义,第二指示符为名称形式指示符,
Xo表示直序方式记录,以1表示倒序方式著录,其指示符及其含义分别为:
o 表示该人名以直序方式记录
1 表示该人名以倒序方式记录
D 分隔符。用于分隔不同数据集合,分为字段分隔符和记录分隔符两种。字段分隔符以“x”表示,用于标志字段结尾。记录分隔符用于标志记录的结束,以“#”表示。记录分隔符与字段分隔符均由计算机自动生成。
一字段按照其是否可在一个记录中多次重复,分为可重复字段与不可重复字段两类型(见图3—6)。可重复表示该字段可在一记录或一字段中输人多次;不可重复字段则表示该字段只可在一记录或字段中输入一次。如606学科名称主题字段中,款目要素子芦段$a不可重复,如一记录同时有“水”和“植物生长”两个主标题,就必须记录为:
第四节 计算机编码(2)
三,信息编码的计算机标识语言
除图书文献单位以外,近十年来,网络环境下元数据编码使用较多的,是标准通用标只语言(standardizedgeneralmarkuplanguage,简称SGML)。该语言是国际标准化组织在1986年发表的一个数据描述和交换的国际标准,是一种用来构造描述结构化信息语言拘元语言,目的是为了使文献可以在计算机平台之间进行交换。其功能之一是可以控制包子文件出版格式,在该格式中记录元数据。它允许以结构化的方式表示文献的各个组成结构,并从文献中抽取其结构,包括题名、小标题、章节、引文等,可以灵活定义各种标识语言。例如,在用它来标识描述记录的情况下,它的结构可以是:作者、题名、描述、主题等。SGMI。以成分和属性规定数据。所谓成分,指文本的特定单元,诸如:题名、章节名、段落等。所谓属性,指说明成分的特定信息。例:注明所标引分类号的分类法名称,SGML描述的标识由定义符和标识组成。定义符是用来定义的符号,如:<,>,</,”等,它们的作用是用来结构标识。例如:~author>即是一个标识。标识通常在成分前后出现,形式为,<标识>成分<标识>(例<author>鲁迅</author>)。属性值通过“...”或‘...’表示。标识可以嵌套。
SGMI对信息资源的描述结构,通常是通过DTD规定的。DTD(documenttypedel—inition,文献类型定义)是SGMI。的一个应用,它按照SGMI。标识的规则生成。一DTD定义一特定类型文献的结构,包括:一特定文献各部分的所有成分;成分名称和是否可以重复;成分以何次序排列;何种标识可以省略;标识性质和它们的默认值;容许的实体名称等。
DTD可以为一特定文献生成,在此情况下,它通常包含在文本的开头。但采用这种方式需要为具体的文献建立描述结构,会花费太多时间。另一种方式是根据文献特征,确定一个供广泛使用的DTD集。在SGMI。语言使用时,只要说明该描述使用的DTD集,即可以按规定的方式使用。目前供一般使用的DTD有许多种,常用的如:TEIT-一供文本文献编码的DTD;HTML——供网页编码的DTD;EAD--供档案编码的DTD;
MARCDTD——供USMARC记录编码的DTD。
以HTMI为例,HTML是一种供网页制作的标识语言。它通过简单的结构,能进行文本和图像显示,提供文献之间的链接,用户可利用这一功能,建立与外部的链接,以超文本的方式,进行不同文本之间的漫游。HTMI。的DTD根据网页生成的需要建立,它通过简单的结构,可以显示图像、提供建立与别的文献的链接等。在HTMI.4.0中,对描写元数据成分有专门的规则,可以用来记录一文献的数据,包括作者,日期,关键词等。下面即为一个按照都柏林核心集的规定以HTMI。编码记录信息资源的例子:
~meta name
~meta name
-~meta nanle
~meta name
~meta name
~meta nama
meta name
meta nam2
~meta name
~meta name
~meta name
<meta name
”DC.Title',content="Peking Univers汁y 1.ibrary">
”DC.COverage.spatial',content=”P.R。China—Beijing">
”DC.COverage.temporal',content=”1902—”>
”DC.Creator.namePersonal',content="Peking University Library">
”DC.Format',content=”text/html">
”DC.Publisher',content="Peking University 1.ibrary">
”DC.Date.created',content=”1996—10-25">
”DC.Description”content=”Library homepage,brief introduction,elcctronlc re
sources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Nav
igations,Focus,User training program,CAI.IS,CAI">
”DC.Identifier',scheme="URI',content=',http://www.“b.pku.edu.CB">
”DC.Language'’scheme="IS0639-2',content="chi">
”DC.Relation.hasVersion',content=”http:/www.1巾.pku.edu.cn/enhmd/index
htm"> ‘
”DC.Type',scheme="OCLCg',content="Text data">
多的通用标识语言中,XML(extensiblemarkuplanguage)语言不是一种简单的言的应用,而是在SGMI。的基础上加以改进形成的下一代语言。随着网络的发源的形式不断增长,HTMI。在使用中对于许多应用,无法确切描述,不够理想。人为,解决的办法是在网上充分使用SGML。但SGMI。相当复杂,直接使用,会使得编程过于复杂、冗长。比较理想的解决方法,是在充分汲取SGMI。优点的基础上,根据网络环境的需要加以改进,建立一种新的适合网络资源使用需要的标识语言。XMI-就是这样一种在SGML语言改进的基础上发展起来的标识语言。
XML应用中的一个发展是RDF。RDF是万维网集团支持的一个描述框架。可在元数据交换的使用中支持互操作的进行。RDF以标准的XMI。形式表达,可以同时以人或机器处理。RDF的作用主要是根据软件内部结构的一般特点,为元数据的发展提供一个有效的模式,支持发展和维护元数据集合。RDF的基本模式见图3—7所示。此例的RDF/XMI。表达为图3-7 RDF的基本模式
<rdf:RDF>
<rdf:Descriptionabout~"http://www.page.html>
<dc:Creator~Albert.K.Boekhorst<dc:Creator~>
<dc:Title2>Albert.K.Boekhorsfs Home Page<dc:Title>
<rdf:Description>
<rdf:RDF>
这样,在RDF的基础上通过与标识语言的结合,就可以在资源内部提供元数据,供计算机检索使用。
RDF可以在软件普遍存在的内部架构的基础上提供一个有效的模式。RDF支持独立发展和维护的元数据类型,如:DC,TEI,EAD,CIMI,GILS,IAFA等。使用XML语言也可以用来表达MARC格式的数据。例如,在OCLC的CORC系统中,可以通过RDF/XML语言的结合,将DC数据与MARC数据进行转换。 一节 信息描述工作概述(1)
一、信息描述工作的要求
信息描述工作,亦称元数据创建工作、信息资源编目,是依据描述规则,对信息资源的特征进行分析、选择、记录的操作过程。对信息资源记录的结果,即为元数据,亦称为款目,元数据是检索系统的基本构成单元,是信息资源的代表,将众多元数据按照一定的次序组织就构成检索系统。元数据在检索系统中的作用:一方面是向用户提供信息资源的目录学信息,供使用者确认信息资源,进行选择;另一方面,元数据的各种特征也是进行组织和检索的依据,是建立检索工具的基础和前提。在计算机检索系统中各种检索操作和处理,基本上都是在元数据的基础上进行的。任何检索系统要充分发挥检索功能,都必须依赖元数据对信息资源特征揭示的准确和完备,任何忽略元数据质量的处理,都会影响检索系统功能的发挥。元数据的的质量如何,直接关系到信息组织的质量。因此,做好元数据的创建工作十分关键。
为了保证元数据的质量,信息描述操作必须客观反映信息资源的特征,严格遵循元数据规范进行操作,一般应做到:
1.准确 2.完备
Xo表示直序方式记录,以1表示倒序方式著录,其指示符及其含义分别为:
o 表示该人名以直序方式记录
1 表示该人名以倒序方式记录
D 分隔符。用于分隔不同数据集合,分为字段分隔符和记录分隔符两种。字段分隔符以“x”表示,用于标志字段结尾。记录分隔符用于标志记录的结束,以“#”表示。记录分隔符与字段分隔符均由计算机自动生成。
一字段按照其是否可在一个记录中多次重复,分为可重复字段与不可重复字段两类型(见图3—6)。可重复表示该字段可在一记录或一字段中输人多次;不可重复字段则表示该字段只可在一记录或字段中输入一次。如606学科名称主题字段中,款目要素子芦段$a不可重复,如一记录同时有“水”和“植物生长”两个主标题,就必须记录为:
第四节 计算机编码(2)
三,信息编码的计算机标识语言
除图书文献单位以外,近十年来,网络环境下元数据编码使用较多的,是标准通用标只语言(standardizedgeneralmarkuplanguage,简称SGML)。该语言是国际标准化组织在1986年发表的一个数据描述和交换的国际标准,是一种用来构造描述结构化信息语言拘元语言,目的是为了使文献可以在计算机平台之间进行交换。其功能之一是可以控制包子文件出版格式,在该格式中记录元数据。它允许以结构化的方式表示文献的各个组成结构,并从文献中抽取其结构,包括题名、小标题、章节、引文等,可以灵活定义各种标识语言。例如,在用它来标识描述记录的情况下,它的结构可以是:作者、题名、描述、主题等。SGMI。以成分和属性规定数据。所谓成分,指文本的特定单元,诸如:题名、章节名、段落等。所谓属性,指说明成分的特定信息。例:注明所标引分类号的分类法名称,SGML描述的标识由定义符和标识组成。定义符是用来定义的符号,如:<,>,</,”等,它们的作用是用来结构标识。例如:~author>即是一个标识。标识通常在成分前后出现,形式为,<标识>成分<标识>(例<author>鲁迅</author>)。属性值通过“...”或‘...’表示。标识可以嵌套。
SGMI对信息资源的描述结构,通常是通过DTD规定的。DTD(documenttypedel—inition,文献类型定义)是SGMI。的一个应用,它按照SGMI。标识的规则生成。一DTD定义一特定类型文献的结构,包括:一特定文献各部分的所有成分;成分名称和是否可以重复;成分以何次序排列;何种标识可以省略;标识性质和它们的默认值;容许的实体名称等。
DTD可以为一特定文献生成,在此情况下,它通常包含在文本的开头。但采用这种方式需要为具体的文献建立描述结构,会花费太多时间。另一种方式是根据文献特征,确定一个供广泛使用的DTD集。在SGMI。语言使用时,只要说明该描述使用的DTD集,即可以按规定的方式使用。目前供一般使用的DTD有许多种,常用的如:TEIT-一供文本文献编码的DTD;HTML——供网页编码的DTD;EAD--供档案编码的DTD;
MARCDTD——供USMARC记录编码的DTD。
以HTMI为例,HTML是一种供网页制作的标识语言。它通过简单的结构,能进行文本和图像显示,提供文献之间的链接,用户可利用这一功能,建立与外部的链接,以超文本的方式,进行不同文本之间的漫游。HTMI。的DTD根据网页生成的需要建立,它通过简单的结构,可以显示图像、提供建立与别的文献的链接等。在HTMI.4.0中,对描写元数据成分有专门的规则,可以用来记录一文献的数据,包括作者,日期,关键词等。下面即为一个按照都柏林核心集的规定以HTMI。编码记录信息资源的例子:
~meta name
~meta name
-~meta nanle
~meta name
~meta name
~meta nama
meta name
meta nam2
~meta name
~meta name
~meta name
<meta name
”DC.Title',content="Peking Univers汁y 1.ibrary">
”DC.COverage.spatial',content=”P.R。China—Beijing">
”DC.COverage.temporal',content=”1902—”>
”DC.Creator.namePersonal',content="Peking University Library">
”DC.Format',content=”text/html">
”DC.Publisher',content="Peking University 1.ibrary">
”DC.Date.created',content=”1996—10-25">
”DC.Description”content=”Library homepage,brief introduction,elcctronlc re
sources,OPAC,UserGuide,News,digitallibrary,Inter-libraryLoan,FAQ,Nav
igations,Focus,User training program,CAI.IS,CAI">
”DC.Identifier',scheme="URI',content=',http://www.“b.pku.edu.CB">
”DC.Language'’scheme="IS0639-2',content="chi">
”DC.Relation.hasVersion',content=”http:/www.1巾.pku.edu.cn/enhmd/index
htm"> ‘
”DC.Type',scheme="OCLCg',content="Text data">
多的通用标识语言中,XML(extensiblemarkuplanguage)语言不是一种简单的言的应用,而是在SGMI。的基础上加以改进形成的下一代语言。随着网络的发源的形式不断增长,HTMI。在使用中对于许多应用,无法确切描述,不够理想。人为,解决的办法是在网上充分使用SGML。但SGMI。相当复杂,直接使用,会使得编程过于复杂、冗长。比较理想的解决方法,是在充分汲取SGMI。优点的基础上,根据网络环境的需要加以改进,建立一种新的适合网络资源使用需要的标识语言。XMI-就是这样一种在SGML语言改进的基础上发展起来的标识语言。
XML应用中的一个发展是RDF。RDF是万维网集团支持的一个描述框架。可在元数据交换的使用中支持互操作的进行。RDF以标准的XMI。形式表达,可以同时以人或机器处理。RDF的作用主要是根据软件内部结构的一般特点,为元数据的发展提供一个有效的模式,支持发展和维护元数据集合。RDF的基本模式见图3—7所示。此例的RDF/XMI。表达为图3-7 RDF的基本模式
<rdf:RDF>
<rdf:Descriptionabout~"http://www.page.html>
<dc:Creator~Albert.K.Boekhorst<dc:Creator~>
<dc:Title2>Albert.K.Boekhorsfs Home Page<dc:Title>
<rdf:Description>
<rdf:RDF>
这样,在RDF的基础上通过与标识语言的结合,就可以在资源内部提供元数据,供计算机检索使用。
RDF可以在软件普遍存在的内部架构的基础上提供一个有效的模式。RDF支持独立发展和维护的元数据类型,如:DC,TEI,EAD,CIMI,GILS,IAFA等。使用XML语言也可以用来表达MARC格式的数据。例如,在OCLC的CORC系统中,可以通过RDF/XML语言的结合,将DC数据与MARC数据进行转换。 一节 信息描述工作概述(1)
一、信息描述工作的要求
信息描述工作,亦称元数据创建工作、信息资源编目,是依据描述规则,对信息资源的特征进行分析、选择、记录的操作过程。对信息资源记录的结果,即为元数据,亦称为款目,元数据是检索系统的基本构成单元,是信息资源的代表,将众多元数据按照一定的次序组织就构成检索系统。元数据在检索系统中的作用:一方面是向用户提供信息资源的目录学信息,供使用者确认信息资源,进行选择;另一方面,元数据的各种特征也是进行组织和检索的依据,是建立检索工具的基础和前提。在计算机检索系统中各种检索操作和处理,基本上都是在元数据的基础上进行的。任何检索系统要充分发挥检索功能,都必须依赖元数据对信息资源特征揭示的准确和完备,任何忽略元数据质量的处理,都会影响检索系统功能的发挥。元数据的的质量如何,直接关系到信息组织的质量。因此,做好元数据的创建工作十分关键。
为了保证元数据的质量,信息描述操作必须客观反映信息资源的特征,严格遵循元数据规范进行操作,一般应做到:
1.准确 2.完备
二、信息描述工作的方式
(1)按照描述的资源对象,信息描述工作,亦即信息资源编目,可以分为文献编目、档案编目、博物馆藏品编目、网络资源编目等。一般均根据信息资源的特点和相应的描述规范进行处理。
(2)按照描述操作的设备条件,信息资源编目可以分为手工编目、机读编目、联机编目等类型。手工编目直接由人工进行描述款目的制作,用于编制卡片式目录或书本式检索工具;机读编目以计算机为工具,通过输入编目数据,在程序控制下输出书目产品,生成机读目录和各种手工检索工具;联机编目则可以在联机状态下进行信息资源编目和提供编目数据,建立联机检索工具并提供各种产品。
(3)按照其处理的方式,可以分为原始编目和复制编目两种。
原始编目:是指直接根据信息资源的特征所进行的编目。
复制编目:是指利用其他单位已经完成的编目数据进行编目。各种文献单位的元数据创建基本上是上述两种方法的结合使用。由于复制编目可以利用已经有的描述成果,不仅能避免重复劳动,节省精力和时间,而且可以保证描述的质量。
集中编目:是由一中心编目机构进行编目,向其他机构提供编目数据的编目方法。集中编目一般采用建立全国集中编目中心、地区集中编目中心等形式。其集中编目数据的提供通常包括发行目录卡片、机读目录数据等方式。在国外,美国国会图书馆、英国不列颠图书馆均为集中编目中心。我国早在20世纪50年代,就由北京图书馆、中国科学院图书馆、人民大学图书馆等单位联合组成中、西、俄三种语言文献的编目组,向全国发行印刷目录卡片,并一度实现中文图书随书配卡销售。70年代后北京图书馆承担起中文图书集中编目工作,向全国发行铅印卡片;其后,上海图书馆承担全国连续出版物集中编目工作,此外一些机构又开展随书配卡的业务。这一系列活动对文献单位提高编目质量,减少重复劳动等方面发挥了巨大的作用。集中编目的的形式之一是在版编目。在版编目指通过在文献出版过程中进行编目,据得以与文献一起提供,便于文献机构使用。在版编目工作一般由出版机构和办作完成。美国国会图书馆自20世纪70年代开始进行在版编目,依据出版商懂数据编目,编目数据由出版商印在书名页背面。我国的一些文献单位自20世起开始对在版编目进行试验,1990年颁布图书在版编目数据;图书书名页两项并于其后逐步开始推广在版编目的工作。目前,我国出版的部分书籍已经包括改据。在版编目数据的问题是,这一编目数据是根据出版社提供的基本数据编接按文献本身进行编目有一定差距,但可以作为文献编目的参考依据。
编目
国外如美国国会图书馆,在1950年后采用共享编目的方式,吸收其他主题领域图书馆的编目记录,同时也向合作馆提供其编目数据。我国如北京高校系统的北京图文联信息咨询公司,就是采用这种分担编目任务、共享编目成果的形式运作的,其初期的编目工作由北京大学图书馆、清华大学、图书馆、北京师范大学图书馆等单位共同承担。此外,我国的上海、江苏、广东等地也有类似的编目形式。
信息资源编目的最新进展是大规模的信息资源描述网络——书目机构
(bibliographicutility)的出现。这些机构将联机环境、网络环境与信息描述的形式结合,同时结合采用集中编目和协作编目的方式,为使用文献单位提供书目资源和服务。国外建立的这类系统中,影响比较大的有:
OCLC(OnlineComputerLibraryCenter),该机构原为美国俄亥俄州图书馆中心,后来发展为全美国和国外进行书目服务的机构;
RLIN(Research LibrarylnformationNetwork),该网络开始于1967年,是一个为美国研究图书馆服务的系统;
UTI.AS(UniversityOfToronto LibraryAutomationSystem),该系统最早为多伦多大学图书馆的自动化系统,目前已扩大成兼为其他图书馆服务的系统。
上述系统中,以OCLC的影响最大。该系统不仅进行图书馆文献的编目操作,同时也进行网络信息资源组织。《都柏林核心集》的编制就是在该机构的参与下发展起来的。我国发展的类似系统中,比较有代表性的则是我国高等学校系统建立的中国高等教育文献保障体系(简称CAIAS)。该系统的管理中心设置在北京大学图书馆,为我国高等学校信息资源的联机编目网络。目前已经开发了联机合作编目系统,可以进行联机环下的资源编目和管理,实现信息资源的共享。
三、信息描述工作程序
为了保证信息资源的描述质量,信息资源的描述工作一般应遵循一定的工作程序。信息描述的操作程序通常为:查重一描述一标引一复核并输入系统。
1、查重
在对一信息资源进行描述前,首先需要通过系统进行查核,确定该信息资源是否已经收入系统。查核一般通过对文献单位的工作目录或编目数据库进行,使用题名、责任者名或标准书号、统一书号等进行查找;在网络信息资源处理时,也往往通过URI查找。通过查重,可以确定该信息资源是否为已收入系统的信息资源、该信息资源的不同版本或经过更新的资源,并采用相应的方法加以处理。如该资源为已经收入系统的信息资源,
2.描述
描述操作通常应根据描述规范,根据不同信息资源的特点进行处理。图书馆等文献单位对所收藏的信息资源的描述,比较严格,一般遵循相应的著录标准和标引工具进行;在描述过程中,一般可以适当参考文献中的在版编目数据,并根据文献信息源提供的数据进行著录;为了保证描述处理的规范,对人名、题名、机构名等数据的著录,一般应按照规范文档进行,必要时还应参考相应的工具书,加以查核。
在电子环境下,对一信息资源的描述还可以采用复制相似的信息资源的元数据,通过修改、调整等方式进行描述操作,以减少工作量,提高描述的一致性。比较而言,图书馆等传统文献单位对所收藏的信息资源的描述,一般比较重视对相应的著录标准或规范的使用;网络资源的描述,则因单位不同而异,但从DC在有关描述项目下推荐的数据规范可以看出,即使从网络信息资源组织发展的角度看,规范化仍然是信
息资源描述的发展方向。
3、标引
标引在此处主要指分类标引、主题标引等。标引操作一般需要在对信息资源进行主题分析的基础上,依据一定的类表、词表或标引规范进行。通常需要对主题分析、类表或词表的结构特点、使用方法、标引规则等有基本的了解。标引操作的结果是给出符合信息资源内容特征的分类标识和主题标识。文献单位对图书等的标引操作一般需要供组织文献分类排架使用,在赋予分类号的同时,还应根据文献分类收藏的需要,给予书次号,组成分类索书号。有关分类标引、主题标引的程序和方法详见本书的有关章节。在实际操作中,描述操作和标引可以同时进行,也可以根据信息资源处理单位的需要,采用流水作业的方式,分别进行。
4.复核
在完成描述和标引以后,一般应进行复核,检查所进行的描述和标引是否符合要求,并根据系统的要求对文献等进行必要的处理,再将描述结果输入检索系统。复核,包括检查描述项目是否完备,准确;分类标引、主题标引的结果是否符合系统的要求等。复核工作一般应由有经验的工作人员进行。在复核的同时,传统文献单位一般还根据建立手工检索工具和文献收藏的需要,进行标目加工,编制参照等。为了便于进行复核,保证标引质量,有的系统往往建立临时库,收入未经过审核的标引结果,只有经过专人审核的数据才可以输入检索系统,以保证系统的质量。
第一节 信息描述工作概述(2)
四,联机编目与CORC系统
元数据的创建涉及信息描述、标引、复核和处理等过程,是一项工作环节比较多、连续性强、需要同时使用多种辅助工具的操作。传统编目环境往往不能较好满足编目工作的各种要求,给操作人员带来不便。随着计算机在编目工作中的使用,编目集成系统的出现以及与联机环境、特别是网络环境的结合,极大方便了元数据的创建工作。下面,试以OCLC的协作联机资源编目系统(cooperative online resource catalog,简称CORC系统)为例,介绍联机环境下的元数据创建的操作过程。
1.CORC系统的功能
CORC系统是OCLC建立的一个以网络资源为对象的联机资源编目平台。该系统由编目工作界面、编目数据库等组成,是将自动网络编目工具与图书馆协作编目结合的编目系统。自1999年1月开始,有24个国家的图书馆参加了该系统的研究,并于2000年7月开始正式投入使用。该系统具有以下特点:
① 编目工作界面功能完备、形式简明、友好,能同时提供DC、MARC方式的编目界面,可以通过编目工作界面方便地对网络资源进行各种与描述有关的操作;
② 有一个由协作编目建立的网络资源数据库,该数据库目前约有20多万编日记i进行编目资源的查询及作为信息描述的参考,
③ 可以自动获取网络资源已有的元数据信息,只要输入有关该资源的URL或各关数据,系统就可以自动获取网络资源的基本信息,在编目界面显示,供进行各要的处理; .
④ 通过系统,可以与DDC、国会标题表、人名规范文档等建立联系,并利用上述工
行规范标引,
⑤ 处理结果可以方便地实现不同格式如MARC格式式等之间的转换、显示、输出、应用。CORC系统操作界面如图4—l所示。HTML语言方式、XML语
用CURC系统进行元数据的创建,可以有以下三种方式:
① 对已有的记录修改完善。如果信息描述的资源对象在CORC系统的编目数据库中已经收入相应的元数据记录,但不够完善,可以对已有的数据进行修改、加工,并向系统提交经过修改的记录。
② 克隆(clone)相关记录,进行修改。所谓克隆,是指在系统中未收入相应信息资源,但已收人相关资源的情况下,可在已创建的相关资源元数据的基础上,根据资源的特征,保留相关资源描述记录中符合该资源的数据,调整、修改不适用的数据。
③ 创建新元数据记录。在系统未收入相应或相关元数据记录的情况下,根据元数据描述的要求,在元数据描述界面上创建新的描述记录。上述数据处理方法中,前两种方法不仅可以节省时间,而且有利于描述结果的一致范,提高描述的质量。因此,只要符合前两类的情况,一般应优先采用。己数据创建的工作流程
CORC系统具有多种功能,如进行信息资源检索,元数据的下载等,元数据的创建是其主要功能之一。此处只概要介绍元数据创建的有关情况。利用CORC系统进行元数据的创建,首先应通过系统进行查重。即在对信息资源进行描述前,首先利用CORC系统的联机编目数据库进行查找,确定系统中是否已经收有该信息资源或相关信息资源的描述数据。如系统已收有该信息资源的描述数据,可根据情况进行补充或直接确认;如系统收有相关的信息资源的描述数据,则可根据情况加以克隆和修改,或作为该信息资源描述的参考;在该信息资源为新资源时,则应根据其特点进行描述。最后将处理结果提交系统。使用该系统创建一信息资源的元数据的操作步骤如下:
① 在资源目录(resourcecatalog)的创建(create)下,选择单个记录(singlerecord),系统即会出现在联机数据库中进行已有编目数据查找的输入界面。图4—2即为该系统中对已有编目数据进行查找的界面。
② 在编目查找界面下输入拟编目的信息资源的数据,可以是URl。地址或题名、创作者名、标准书号、关键词、分类号等,即可以检出有关该提问的已有记录。一般应尽可能输入专指程度比较高的、能够个别化的标识,如URI·、标准书号等。如果系统未为该对象编目,则会直接显示相应的创建记录的界面。例,在输入北京大学网站地址后,在系统的目录中共查出两条与该地址有关的记录 。
③ 可以利用界面显示的记录察看已有记录的情况,确定已有的记录是否符合要求。如记录符合要求,即可直接使用原有的记录。如记录不够完备,可在上部的“Action"选择框中选择“Editmasterrecord”,即出现包括原有数据的编辑界面(见图4—4),可根据需要进行补充或修改;如系统收入的为相关信息资源的描述数据,则可在“Action"选择框中选择“克隆(clone)”,即出现包括原有数据的编辑界面,可
作为该信息资源描述的参考;用作克隆的记录也可以在资源目录下通过题名、关键词等检索找出。
④ 即使已有相应、相关记录,如认为仍需要重新生成,则可在上述选择框中点击“continue with
record creation”,系统即提供元数据创建的界面,供对该网站进行描述时使用。
未编目的新网站的数据,在查重后通常会直接出现元数据创建界面。界面中一般包括自动收录到的该资源标头中创建者输入的基本数据,可供参考使用。
⑤ 信息描述时,系统可以同时提供描述对象的界面,供描述时查核、参考,必要时还可以访问DDC、LCSH、名称规范文档等,以进行规范标引。
⑥ 为确保描述结果的准确性,可将未完成的描述记录保留在临时文件库中,以供进一步修改、完善。操作时打开“Action"列表,点击“Save Record'’,即可完成描述记录的临时保存。
⑦ 完成编目描述后,将记录输入资料编目库,供系统审核。操作时点击"AddRecord+Holdings",审核由专人进行,如符合要求,即将其收入系统,同时加上OCLC的控制号及有关的控制号码;如发现错误,通常在修改后再予提交。
这样,通过一体化的集成界面,就可以根据信息资源的不同情况,通过相应的操作,完成对信息资源的描述。使用CORC系统,还可以为不同层次的网络资源、非网络资源等创建元数据。该系统也可以通过对描述结果的转换,实现与相关系统的资源共享。
第二节 信息描述方法 (1)
信息资源的描述本质上是分析信息资源的特征,并按照一定的描述规范加以记录的过程。因此,关键是应能掌握各项信息资源特征的分析和记录方法。下面按照基本的信息资源描述特征,概要介绍传统的文献著录规范和《都柏林核心集》对各基本描述项目的有关规定,以便对各类信息资源描述特征的处理方法有基本的了解。为便于了解和使用,对《都柏林核心集》的项目标识符,本书不使用英文形式,一律按该项目符的中文形式表示。例如,题名的标识符,不使用Title,而是直接使用“题名”。
—、题名的描述方法
题名是信息资源重要的形式特征,可以在一定程度上表示信息资源的性质和内容,是查找信息资源的一个重要途径。各种描述规则都首先列出题名项。在传统的文献著录规则中,题名包括:正题名、并列题名、副题名及说明题名的文字等多种形式,文献著录规则对每种题名类型的描述均有明确的规定。正题名是文献的主要名称,包括单纯题名、交替题名、合订题名等。单纯题名由一个单一的题名构成,前后没有任何附加的文字,一般可直接加以著录,
订题名又称为合辑题名、集合题名,指由两或多个篇名并列印刷在书名页上。著录时分三种情况:如合订题名由两个题名构成,为同一作者所作,则连续著录两个篇名,其间以“;”隔开。例:荒野的呼唤;~t/(1)杰克·伦敦。
如两个题名分别为两个作者所作,则先著录第一个题名和责任者,再著录第二个题名和责任者,中间以“.”隔开。如合订题名由三或多个篇名构成,则在本项只著录第一个题名和责任者,其余在附注项著录。例:
百川书志/(明)高儒著·古今书刻/(明)周宏祖著
并列题名,又称为平行题名、对照题名、指见于书名页的,与正题名语种不同的题名。如:《吾国与吾民MyCountryandMyPeople))。其中未被选择为正题名的语言的题名即并列题名记录在正题名之后,以“=”连接。著录为日·前后的文字,如属说明题名文字,也应以“:”为标识,著录于题名之后。广告文字不能著录。
《都柏林核心集》中,题名指创建者或出版者赋予信息资源的名称。如该描述的资源日,则记录该题名。如出现两个或多个题名,应选择最适合的、完整表达信息主要题名,其余题名记录在选择题名子字段中。如信息资源提供多语种题该资源采用的语言的题名为主要题名,同时在选择题名子字段中记录其他语如信息资源创建者或出版者确定的题名不正确或有错误,则应提供正确题名。如信息资源只有一般化的、不适合著录的题名或没有提供题名,则著录者应提供一概括的描述性的题名作为主要题名,并在其后的注释字段中注明“该题名为著录者提供”,同时将其他题名作为选择题名。
在依据《都柏林核心集》描述时,题名著录也可以将第一题名与所有其他题名著录在同一题名字段,用等号隔开。例:题名北京大学=Peking University=BeijlngUniversity
二、责任者项
责任者说明由责任者和责任方式组成。责任者指对信息资源的生产负有责任的个人或团体,是区别信息资源的一个重要特征。将责任者结合题名进行查找,可以实现检索的个别化。此外,责任者也是判断文献内容与学术水平的一种标志。信息资源的责任者通常分为个人责任者、集体责任者两种·。个人责任者可以是一人或多人,集体责任者则指机构团体、会议活动等。责任方式表示责任者对文献所作的贡献类型。传统文献通常有著、编、改编、执笔、口述、译、注、点校、作词、作曲、绘等多种形式。
在传统的文献著录规则中,责任者描述一般保留书名页或其他信息源中名称记载原貌,清代以前的著作者应记录朝代,外国责任者要记录国别。在外国责任者姓名构成不同或称呼习惯不同时,对原责任者名称颠倒或必要处理,同时著录原文。例:(唐)李白;(英)狄更斯(Dichens,Charles)。
单一责任者按照原文著录;合著者为两人时照录,第二责任者前用“,’’标识;合著者为三人以上时只著录第一人。在一文献有多个责任者或责任方式时,可以按责任方式不同,区分出第一责任者和其他责任者。一般情况下,排列在前者为第一责任者,其余为其他责任者。第一责任者后用“;”标识区分。一般情况下,翻译作品以原著者为第一责任者;注释作品以原著者为第一责任者;个人著作由他人汇编时,原著者为第一责任者;一文献既有主编又有编辑者时,只著录主编;法律法规以制订者为第一责任者;音乐作品以词作者为第一责任者等等。
《都柏林核心集》中,对有关信息资源责任者的数据,设有创建者和其他责任者以及权限管理等著录项目。创建者项下分设会议、机构、个人等子字段,著录时,可在相应字段著录相应的名称。涉及多个机构或人名时,可以重复著录。著录时,将每个人名作为一个独立的元素记录,姓名可按传统文献编目规定的次序进行,也可按原文顺序加以记录。
创建者.机构 北京大学图书馆
创建者.个人 李平
创建者.个人 Albert.K.Boekhorst
其他责任者为仅次于创建者的个人或其他的责任者,如编者、译者、插图者等,是对现有信息资源内容作出贡献的实体。一般应在符合条件时才予著录。其他责任者下也分设会议、机构、个人等子字段。对创建者或其他责任者在无法区分时,通常可作为其他责任者处理。权限管理项著录可以直接著录有关该资源对权限的陈述;也可以记录有该信息资源权限说明的URL,供用户查找。例如对权限无限制的信息资源,可以直接著录为:权限管理无限制.
三、版本项、出版发行项
版本项对鉴别版本差别、判断版本质量具有重要意义,出版发行项主要用以说明文献的出版情况,两者是从出版的角度对信息资源进行著录和判断的特征。传统的文献著录规则按版本、出版发行两项分别进行记录。版本项由版本、版刻与版本有关的责任者组成,主要提供文献版本的有关信息。其中,版本指文献排版的次数,不同版本说明文献的修订更新情况。版次基本上指原有版本的重新印行,一著作版次多表示它价值高。读者一般重视当前版本,特别在知识发展较快
的领域。一般情况下,第一版的版本不予著录。版刻指制版形式,如刻本、抄本、铜版、影印本等。影印本一般应在附注项注明被影印版本。与本版有关的责任者指新版的责任参加者,包括新版的修订者,增补者、审订者、作序者等。例:
中国书史简编/刘国均.一2版(增订本)/郑如斯修订
出版发行项包括出版地或发行地、出版者或发行者、出版日期或发行日期、印刷地、印刷者、印刷日期,主要用以说明文献的出版情况。
出版地指出版者所在地,通常为出版者所在的城市名称。例:北京:清华大学出版社。
出版者为将文献整理印刷、公布于世的个人或机构。现代出版者一般有自己的出版范围和出版特色,是判断文献质量和专业方向的一个因素。
出版发行日期指该文献出版发行的时间,重版书通常著录最新版本时间。版本时间表明著作包含信息的时间,对了解文献内容状况有一定价值。特别是发展迅速的领域,尤其重要。在文献无明确版本日期时,可记录印刷日期,在两者都缺乏时,可以估计一个日期,并加以说明。
某些类型文献中,如幻灯片、电影、多媒体资源等,很难区分出版者、发行者、生产者,一般可在描述时同时包括发行地、发行者等。
《都柏林核心集》中,与本项相关的项目分别为日期和出版者两项。日期项为记录信息资源创建有关的日期的描述项目,目前设置有详细的子项目,包括创建日期、有效日期、可获得日期、发表日期、修改日期等。其中,创建日期指该信息资源或作品原创建或完成的日期;发表日期为得到公开承认的合法版权或正式发布的日期。如一著作或文件的完成时间为创建日期;其出版或公布的日期则为发表日期。有效日期、可获得日期一般为一定的时间段。为了统一日期的著录,该规范要求最好采用IS08601的方式(http://WWW.m3.org/TR/NOTE-datetime),以数字按YYYY-MM-DD的次序
记录,如一信息资源于1999年7月8日创建,2000年1月15日正式发布,应著录为:
创建日期1999-07-08
发表日期2000-01—15
出版者项指负责使该资源以现有形式出现的实体,例如出版社、大学或社会团体等。《都柏林核心集》中,设置有出版者名称、会议名称、机构名称、个人名称、出版地等对应子项,可以进行出版者项目的确切著录。网络资源著录中,如出版者的角色难以确定时,一般可将对信息资源发行比较重要的个人或单位著录于其他责任者项。如出版者为清华大学出版社则可著录为:
出版者.机构 清华大学出版社
出版者.出版地 北京
四、载体形态项、丛编项、附注项
载体形态项、丛编项、附注项等均为与文献的物质形态、编制形式以及进一步提供相关材料的项目,可以帮助进一步了解信息资源的状况。 载体形态项是一个记录文献物质形态特征的项目。包括:数量、图、尺寸或开本、附件等。其中,数量及单位是文献篇幅容量的记载,可以是页数、册数、盘数;图指对文献中图表的记载;尺寸,开本是对载体形式的记录;附件指与文献内容相关而又脱离文献主体的附加材料,如唱片、光盘等。此记录便于用户了解文献长度和构成形态。不同长度对同一主题讨论的充分程度是不同的,是选择文献的一个重要因素。
文献特殊细节项是为某些特殊类型文献特征的著录设置的项目。如:连续出版物的卷、期、起讫,地图比例尺、投影法等,主要用于记录个别重要文献特征。丛编项是记录所描述文献所属丛编的主要特征的项目,包括丛编名、丛编责任者及丛编编号等。
丛编是一个总题名下,汇集一组独立著作的文献形式。丛编说明可以提供文献类型、层次的有关信息。丛编文献通常有两个题名,一为总题名,一为分题名,丛编名通常为文献的总题名。丛编责任者指整套丛编文献的责任者。丛编编号指丛编文献所包含的每一种文献的顺序号,一般在丛编题名之后。在特定情况下,也可以是报告系列号、政府出版物系列号、标准系列号等,此类编号具有排列文献的作用。附注项是一个补充描述项目,作用是进一步提供文献的相关材料,帮助用户充分了解信息资源。内容包括:进一步阐明现有著录,如作者说明,发行范围,早期版本信息,音乐作品的演奏者等;进一步说明文献材料,包括与其他材料的关系等。附注项涉及内容比较多,记录的自由度较大,著录的文字一般应尽可能简明。
《都柏林核心集》中与本项有关的内容包括:语种、类型、格式、关联、覆盖范围等。语种。指资源本身采用的语言。OCLC核心集建议采用RFCl766的规定,使用IS0639的语言代码。例如使用英文的信息资源则表示为:语言en又例如中文信息资源表示为:语言chi
类型。包括:资源集合、结构化信息资源、事件信息、图像、交互资源、模式、机构、软件、录音、文本等。OCLC核心集建议参考(见//wwwsunsite.berkeley.edu/metadata/types.html)列举的类型,该网址将信息资源的基本类型分为6种,依次为文本、图像、声音、软件、数据、交互应用等。
例如文本信息资源可著录为:类型文本格式。表示资料采用的数据格式。《都柏林核心集》建议采用MIME(MultipurposeInternetMailExtension,多用途互联网邮件扩展)规定的格式。例如,北京大学图书馆的网络格式为:text/html
覆盖范围。指信息资源的内容涉及的空间和时间。空间范围按照信息资源内容对象的地理位置或空间名称记录;时间范围按照时间时段按规范的方法记录,但应注意,时间时段为信息资源描述内容的时间,而不同于创建或可获得的时间。例如;北京大学网站的的覆盖范围应为:
覆盖范围时间1888—
覆盖范围空间北京,中国
1.关 联 主要用于表达一信息资源与其他信息资源的联系。《都柏林核心集》中与关联项有关的子元素有六种类型:部分、全部关联。指一资源是另一资源的物理或逻辑的一部分,对应的关联形式为:下述资源的一部分(1sPart Of)和有组成成分(Has Part)。前者表示该被描述的资源》另一资源的一部分;后者表示该描述的信息资源所具有的组成部分。
2.版本关联 指一资源是另一资源的版本。包括:另一资源的版本(1s Ve,sion Of)禾有版本(HasVersion)两种标识。前者表示被描述的资源为另一信息资源的一个版本沾者表示被描述的资源具有的某一版本。格式转换关联。指通过复制或确定新的形式,使一资源成为另一形式的资源。包齐是资源的格式(1sFormatOf)和有格式(HasFormat)两种。前者表示被描述的信息资溺为另一信息资源的一种格式;后者表示被描述的资源具有的某一格式。
3.参照关联 指一资源的作者引用、讨论或提到的另一资源。包括被参(1sReferencedBy)和参考(References)两种标识。前者表示被描述的资源为另一资源巷考引用;后者表示被描述的资源参考引用了另一资源.
4.替代关联 指一资源是对另一资源的替代等。包括被取代(1s Replaced By)和代替(Replaces)两种标识。前者表示被描述的资源为另一信息资源所替代;后者表示被描述的资源代替了另一资源。
5.附属关联 指一资源需要另一资源来表达或产生作用。包括被需要(1s Require‘By)和需要(Requires)两种标识。前者表示被描述的资源无论在逻辑上还是在物质上均为另一信息资源所需要;后者表示被描述的资源要求另一资源支持其功能。
NOTES: 上述各项目的著录应根据定义确定是否描述为关联,并根据关系类型指明关联的性质。例如,北京大学图书馆网站为北京大学网站的一部分,可在图书馆网站下表示为:下述资源的部分北京大学网站又如北京大学网站有北京大学图书馆这一部分,可以在北京大学网站的描述中,表组成成分北京大学图书馆,但一资源与一来源对象之间的关系,不应记录在关联项中,而应记人来源项。来源。来源表示该信息资源来自另一信息资源,通过以一标记指向参考的信息资源,可指明来源的物质形式、出版日期、URL地址等。
五、文献标准编号及有关记载项
在传统的文献著录规则中,包括国际标准文献编号、中国标准文献编号、获得方式。国际标准文献编号、中国标准文献编号可以简单表示一文献,具有惟一性,有利于文献控制。获得方式为销售时,通常明确记录售价,一般按文献的价格记录。非卖晶在著录获得方式时,可直接著录为“非卖晶”、“赠阅”。价格等的记录是用户购买文献的重要信息。
《都柏林核心集》中,本项目包括国际标准书号、国际标准刊号、统一资源标识(URL)等子项。其中URL供网络资源描述使用。在CORC系统中,当一信息资源有多个URL寸,如能确定创建者和出版者提供即时信息的基本服务器的地址,则将该地址记录在第一声段,并在其后的字段中记录其他地址,并注明其为镜像站点;如不能确定基本服务器的占点,则可选择一速度较快的服务器为第一个地址,其他的URL为附加站点。对无效的JRI。地址,可仍保留在ID—URL字段中,注明已经失效。为了确保URL著录的准确,CORC系统推荐最好以剪贴方式提供。例如国际图联网站的URL可著录为:资源标识.URI。http://www.ifla.org
六、提要项
提要项是概括记录和评价文献内容的描述项目,我国国家标准中包括此描述项目。臣要项可以方便用户迅速了解文献的内容概况,帮助用户作出判断。在以论文为描述单己时,提要通常采用文摘的形式。在计算机检索系统中,提要或文摘是从语词出发查检信息资源的重要对象。
传统文献描述中,图书提要项的编写,一般应根据原文献的内容提要、前言、序言、目《等进行编写。提要应客观反映图书的内容要点、学术价值、使用对象等。在内容复杂,准以概括时,也可以记录其目次加以反映。提要的编写应简明扼要,通常将字数限制在0()字以内。
《都柏林核心集》中本描述项目前设置目次(TableOfContent)、摘要(Abstract)两个F项。可以在相应子项中记录信息资源的目次以及内容要点、服务对象等。例如,下面分心为摘自CORC系统的描述的样例:例一,北京大学图书馆的描述
Library homepage,brief introduction,electronic resources,OPAC,User Guide,News
brary,Inter-library Loan,FAQ,Navigations,Focus,User training program,CALLS,CAI
例二:美国路易斯安那州立图书馆系统的描述
Presents access tO an online information guide tO the library system Of Louisiana State University
LSU),located in Baton Rouge.Includes information about services“the University,s libraries,as
rell as information about LSU and Louisiana electronic publications.Posts a calendar Of upcoming
vents.Offers a site search engine fOr finding specific information.Links tO related Internet sites.
传统的文献著录规则设有检索排检项。该项目通过对检索点的揭示,供手工检索系统编制使用。传统文献单位卡片式目录中作为排检特征的项目,通常包括四个方面,依次是:文献题名、责任者名、主题词、分类号。前两个排检项从文献特征中选取,后两项特征则为对主题内容检索的两种基本途径的标识。都柏林核心集没有专门设置的检索排检项。从理论上说,所有《都柏林核心集》项目的数据都是可检的。其中,主题项收入从主题内容角度提供检索点的标识,包括主题词、分类号等。《都柏林核心集》对从主题内容角度检索的标识,鼓励采用受控词汇,以提高标引和检索的质量。目前推荐使用的规范词表,基本上为西方世界有影响的词表和分类法,包括《国会标题表》、《美国医学标题表》、《杜威十进分类法》、《美国国会图书馆图书分类法》、《国际十进分类法》等。显然,不同的国家和地区,可以根据自己的需要,采用适合使用需要的主题法和分类法。当然,《都柏林核心集》对受控标引的要求是没有约束力的,用户在主题标引时也可以根据自己的需要,直接采用自然语言中的语词进行。
除上述各项目外,特殊信息资源类型一般还可以通过设置或加强特定的描述项目加以著录。如:传统文献描述中地图信息资源按其特点设置了数学基础项,记录地图比例尺、地图投影特征等;非书资料设有数量规格项、系列项,记录其数量、实际播放时间、材质、长度或型号、制式、色别、转速、声响等。对网络信息资源中特定类型的信息资源的描述,可以采用研究用的专门描述规范,也可以根据需要在通用描述规范的基础上进行适当调整,使其适合专门类型信息资源描述的需要。
八、简短讨论
传统文献著录规则和《都柏林核心集》都是描述信息资源特征和内容的基本规范,上述各项的描述,可以提供一信息资源的完整的描述数据,是识别信息资源、分析比较信息资源的基本依据。传统的文献著录规则与《都柏林核心集》的相同之处是:两者都设置了完备的描述项目,可以比较完整地揭示一信息资源的基本特征;两者都对描述的等级、标识以及规范的使用作出相应的规定,可以准确、一致的方式进行描述;两者都具有比较强的扩充性、兼容性,可以充分满足各种信息资源描述的需要和不同系统之间转换的需要。比较而言,作为针对不同描述对象,在不同的技术环境下发展起来的描述规范,两种描述规范也存在着差别。传统文献描述规范主要是针对传统文献描述和识别的需要设置的,其特点是:描述项目设置充分,对传统资源特征的描述项目的设置详尽,虽然也可以进行网络资源的描述,但针对网络资源的描述项目相对比较概括;有明确的等级性、次第性,各描述项目有明确规定的次序和等级;对描述的表达也有严格要求,如对外国作者名.要求按规定按直序或倒序的方式著录,有最低必须描述项目的规定等;采用人工标识,适合专业文献单位使用,是一个以文献专业人员为处理主体的描述规范。 .
《都柏林核心集》的描述项目则是根据网络资源的特点和需要,按照资源内容描述、知识产权描述、外部属性描述三种基本类型设置的,项目的设立更加充分,与传统文献编目其不同表现在:
元素集的成分含义明确,易于理解,便于操作,同时具有机械操作和人工理用。
对所描述的数据的形式没有严格规定,例如,对外国人名,可以按作者原次又可以按文献单位要求的次序记录;对主题数据,可以采用推荐的词表进行也可以直接以自由词加以标引。
对描述的元素成分没有限制,所有的元素成分都是可选择的。
各个元素之间没有固定的次序,所有元素都是独立的,可以按照任何次序示。
所有的元素都是可以重复的,可以根据需要,对有关的数据进行记录,从而增强了充分描述信息资源的能力。
可扩展性。《都柏林核心集》为集合的扩充提供了充分可能。所有的元素成分都可以在现有的基础上根据需要进一步设置子项目,加以扩充。
兼容性。在各种元数据之间具有比较好的兼容性,可以在现有的框架下,对不同元数据集合之间进行转换。
《都柏林核心集》可结合网络资源的生产,由创建者在信息资源生产的过程中对元数据进行描述,也可以由网络信息组织者加以描述或补充。由于网络元数据是以结构化的方式记录在信息资源内或独立建立,并与其联系的,依据DC,就可以通过对元数据的发现和利用,作为网络资源搜索和处理的工具。虽然传统文献描述规范与《都柏林核心集》有上述不同,但作为信息资源描述的规范,两者是兼容的,在目前的描述框架下可以对各个数据集合进行兼容互换(见图4—5)。
第一节 分类法概述(1)
一、分类法的意义
信息资源的分类是一种从主题内容角度组织和揭示信息资源的一种方法,是分类方法在信息资源组织中的应用。因此,要了解信息资源分类,必须首先了解什么是分类。
所谓分类:是指依据事物的属性或特征加以区分和类聚,并将区分的结果按照一定的次序进行组织的活动。分类是人类思维的基本形式,是认识世界的基本方法。
一个完整的分类应包括两个方面:
其一,依据事物的属性区分或分组,把具有相同属性或特征的对象集中在一起,与不具有这些属性或特征的对象分开;
其二,按照区分出来的对象集合的关系排列次序,并在这些类中进一步按照其相同点和相异点进行区分和组织。例如,将经济部门按照其不同对象,分为农业、工业、交通运输、邮政电信、商业、金融、服务旅游等基本门类,并按照一定的顺序加以排列,同时还可以按其特点,对这些门类进一步加以区分。
所谓信息资源分类,是指根据信息资源内容属性和其他特征,将各种类型的资源分门别类地、系统地组织和揭示的方法。信息资源分类一般具有以下特征:
其一,按照信息资源内容特征的相互关系加以组织。信息资源分类是分类方法在信息组织中的应用,是按照信息内容特征之间的关系组织成系统的。通过区分和类聚,分类法可以将具有相同属性或特征的资源集中在一起,将具有不同特征或属性的资源区分开来,同时将各种门类的资源按照类目之间的关系加以组织,根据其远近亲疏,组织而成的一个具有等级性、次第性的系统。通过它,用户可以按照知识之间关系,对特定内容特征的资源进行查找,并可以依据类目之间的联系,扩大或缩小查找范围,由此及彼地进行相关资料的检索。 .
其二,一般是从一定的角度出发组织信息资源的。主题内容之间的联系是多方面的、多维的。分类法作为一种从内容角度揭示信息资源的方法,一般只能有选择地揭示其主要联系。为了适合用户从学科的角度查找文献的习惯,目前的学术性文献分类体系一般总是首先将知识领域划分成传统学科,如哲学、历史、艺术以及各门科学,然后再在其下进一步展开,建立起以学科、专业为中心的分类体系。有关一事物对象的信息资源,在这一分类体系中往往是分散的,例如,与“茶”有关的各方面的文献,如茶的种植、茶的焙制、茶的贸易等在学术性分类体系中是按照研究的学科角度分散在农业、轻工业、经济等有关门类的。为了适合普通用户的使用需要,通用性的分类体系往往也以事物对象为中心展开类目体系,例如,网络分类体系一般是按对象、问题集中揭示信息资源的。
其三,以一定标记符号作为排序工具。现代文献分类体系一般均以一定的标记系统表示类目的相对位置或相互关系。这一标记系统通常由有序的符号如数字或字母组成,其特点是简短、明了,排序性好,利用它作为排检依据,可以按照类目体系方便地对文献和检索工具进行系统组织和揭示,从而充分发挥分类法在文献信息组织中的作用。此外,分类标记的成分一般为数字或字母,通用性比较好,不受语言、国别的影响,可以超越国界使用.标记符号的不足是直观性差,必须结合类名加以使用,从而在一定程度上影响了分类法的使用效果。为方便用户使用,网络分类检索工具在检索界面中一般并不显示其标记符号。
其四,一般通过类目索引提供从字顺角度查找类目的途径。按照类目之间关系展开,优点是可以揭示类目之间关系,但也会给类目的查找带来问题。随着现代科学的发展不断深入,主题数量不断增加,主题关系日益复杂,给从主题关系角度查找类目增加了难度。类目索引的目的,是为了便利从语词字顺的方式查找类目。这种索引的查找对象,不是一般的信息单元,而是语词对应类目的分类号。这样通过从语词查找类号,可以弄清主题在分类体系中的位置,便于类目体系的使用。
信息资源分类具有多方面的作用,其中最主要用于信息资源组织和揭示,包括文献分类排架和编制分类检索工具两个方面。
文献分类排架的优点是,可将文献按照其内容之间的关系组织成一个有机系统。通过它,文献单位可以使用开架方式,供读者按照知识关系查找所需要的学科门类,并进行由此及彼的浏览,用户能直观、方便地使用文献。信息资源的组织可以有多种形式,如按文献形式、到馆先后、固定排架等,但这些方式由于无法揭示文献内容之间的联系,均不适宜供读者开架借阅,不方便用户直接使用。因此,各国的文献单位一般都将分类排架作为各类信息资源组织的基本形式。
分类检索工具包括分类目录、索引等,其形式不仅包括卡片式、书本式等手工方式,也可以用于机检系统,是一种按照内容之间关系系统揭示信息资源的检索工具。与分类排架相比,分类检索工具不受信息资源形式、具体文献单位收藏的限制,可以从多个角度对文献内容进行揭示:可以对一定领域的信息资源进行充分揭示。通过类目的系统展示,用户可以按照主题展开的等级层次,确定查找对象,并依据类目体系扩大或缩小查找范围,有针对性地检索,是读者查找文献,文献单位工作人员向用户推荐文献、解答读者参考咨询的必要工具。 ’
在分类排架和编制分类检索工具的基础上,信息资源管理机构一般还可以进行以下工作:根据分类统计的状况,有针对性地进行信息资源补充工作,促进信息资源建设;分析各门类信息资源的流通工作状况,改进流通业务;系统收集有关领域的文献资料、编制专题参考书目;作为编制主题检索词表或编制后控词表时词汇控制的工具,通过分类,判断各专业领域的词汇收集状况和水平,揭示词间关系,对词汇进行控制等。
此外,分类法还可以广泛用作建立网上的检索工具或组织的手段,包括,编制网络分类工具,系统组织各类信息资源;对网上数据库的相关文献进行整合,编制跨库检索工具;利用它作为媒介语言,用于不同检索工具之间等。
第一节 分类法概述(2)
二、分类法的类型
一般认为,信息资源分类就整体而言包括聚类和归类两个方面。所谓聚类,是指按照信息资源的特点和使用需要,通过区分和类集建立起类目体系的过程;所谓归类则是依据建立的分类体系组织信息资源活动,一般是根据信息资源的特点,将其分门别类地归人该系统的相应类目,通过这一操作对信息资源进行分类组织。其中,建立科学、合理的类目体系,编制适用的分类表是进行分类组织的重要条件。所谓分类表,亦称信息资源分类表,是根据类目之间关系组织起来的,并配有一定标记符号的类分信息资源的工具。分类表是分类法的具体体现,它与分类规则一起构成分类语言,是进行分类工作的依据和规范,十分关键。由于它的重要作用,人们习惯上也直接将它称为分类法。没有预先编制的分类法,要准确一致地对数量巨大的信息资源进行分类组织是不可想象的。信息资源分类法按照其编制方式,通常可以区分为等级列举式、分面组配式、列举组配式三种。
等级列举式分类法是一种将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法,亦称列举式分类法、枚举式分类法。这种分类法通常将类目体系组织成一个树状结构,按照划分的层次,逐级列出详尽的子目,并在以线性形式显示时,以缩格表示类目的等级关系。由于这种分类法通常是依据传统的知识分类体系编制的,人们习惯上也将其称为体系分类法。
例如
可以看出,等级列举式分类法的特点是:①从一定的角度出发有层次地揭示信息资源,类目展开比较系统;②分类结构显示直观,易于把握、便于使用;③标记简明,号码单纯,适于分类排架,也可以用于组织分类检索工具。列举式分类法的不足是:①揭示专门主题能力差,往往无法满足确切分类的需要,不能充分揭示现代文献中大量存在的细小专深主题;②类表具有一定的凝固性,不便于根据需要随时改变、调整检索途径,不能进行多角度检索;③无法根据现代科学的发展自动生成新类,难以与科学的发展保持同步;④大型列举类表一般类目详尽、篇幅较大,对类表管理的要求较高。
等级列举式分类法是一种传统的分类法类型,也是目前使用最普遍的分类法形式。比较著名的等级列举式分类法有:美国的《杜威十进分类法》(DeweyDecimal Classifica—tion,简称《杜威法》或DDC)、《美国国会图书馆图书分类法》(Library。fCongress Classi—{ication,简称《国会法》或LCC),我国的《中国图书馆图书分类法》(简称《中图法》)等。分面组配式分类法是一种为克服等级列举式分类法的不足,适应现代信息资源标引和检索的需要发展起来的分类法类型。这种分类法放弃详尽列举的做法,代之于以简单概念组成复合类目的方式。其基本思想是;任何复合主题,不管它多么复杂,都可以分解为相应的基本概念;同时,它们也可以通过相应基本概念的组合加以表达。根据这一特点,分类法编制时,不必详尽列举所有主题,只需要在类表中按照范畴列出各种基本概念,并分别配以相应号码;使用时,先分析标引对象的主题,根据主题分析的结果,通过相应概念类目的组配表达文献主题内容,以这些类目的标识的组合,表示该主题在分类体系中的次序。例如,在文学类中,可根据文学作品标引涉及的特征,分解成以下分面,按范畴设置基本概念,并配以相应标记,形式如下:
上表只是分面组配式类表的样例,可以看出,类表中没有具体的主题,只有按照范畴设置的基本概念。使用时,需要首先分析标引对象的内容特征,然后利用表中概念进行组配标引。假设文学大类的标记为I,在使用上表标引时,“中国现代军事题材小说”这一文献,可根据其涉及的主题因素标引为:IElD3C3B2。分面分类法的特点是:①标引专指,可以通过基本概念的组配,充分揭示信息资源中的复合主题;②标记表达性强,可以表达出主题成分所属的分面,便于根据不同需要,调整组配次序,进行多元检索,例如:可以将上述标记轮排,提供从不同角度检索;③对科学发展的适应性强,可以通过组配方式,表达新产生的复杂主题,有利于与科学的发展保持同步;④类表的篇幅较小,便于管理、修订等。分面类表的不足是:①分面类表的类目体系是隐含的,直观性不如等级列举式分类法;②检索工具中的类目是根据组配建立的,类目分布往往不够均衡;③标引难度较高,要求分类人员有较高的专业素养;④分面标记的成分一般比较复杂,号码冗长,不适宜用于组织文献排架,主要用于组织检索工具。
具有代表性的分面组配式分类法有印度图书馆学家阮冈纳赞创制的《冒号分类法》(ColonClassification,简称CC),英国分类法研究小组改编的《布立斯书目分类法(二版)》
(BlissBibliographicClassification,简称BC2)等。
列举组配式分类法则是上述两种编制方式的结合,是一种在详尽类表的基础上,广泛采用各种组配方式的分类法,亦称半分面分类法。这种分类法以列举式类表为基础,具有一定的直观性,同时广泛采用组配方法,基本上可以达到分面类表同等标引水平。但其列举式类表的管理修订工作,需要较大的工作量;类目之间的组配要求使用多种辅助符号,标记复杂、冗长,是其不足。著名的列举组配式分类法有欧洲各国使用的《国际十进分类法》(Universal DecimalClassification,简称UDC)、俄国的《图书馆书目分类法》等。按照类目体系展开的维度,分类法可以分为单维和多维两种类型。传统分类法根据文献资源组织的需要和检索工具的特点,一般采用单维的线性结构,使用交替和参照等形式作为揭示类目之间的横向联系的补充,这一体系适应在传统环境下建立分类收藏和手工检索工具的需要,但不能充分揭示类目之间的多种联系;网络分类法借助于超文本技术,可以改变传统分类法单线结构的局限,通过重复反映、动态揭示等方法,充分反映知识之间的各种联系,满足终端用户的不同需要,建立起不同于传统分类法的网状结构。目前网络上使用的Yahoo等主题指南虽然仍有许多可改进之处,但已经在这一方面做出了许多有益的探索。
此外,文献分类法还可以依据不同的标准,区分出不同的类型,如根据其涉及的学科领域的范围不同,分为综合性分类法、专业分类法;根据其适用的文献类型,分为图书分类法、期刊分类法、标准文献分类法、专利分类法、报纸分类法、资料分类法、网络资源分类法;根据类分文献的规模,分为大型分类法、中小型分类法等。
第二节 分类法结构剖析(1)
信息资源分类法
对于分类法的结构组成目前大致有两种划分方法:
一种按照分类法组成部分的功能,将分类法的组成分为类目体系、标记符号、说明与注释、类目索引四部分;
另一种按照分类法构成的形式,将其分为编制说明、主表、副表、类目索引。为了便于介绍,本书采用前一种分法。一般情况下,要了解类法,必须首先对这四个方面有一个概要的了解。
一、类目体系
类目体系是按照类目之间的关系组织而成的一览表.亦称类目表。类目体系是分类法的主体,是分类语言对词汇和词间关系进行控制的主要依据,一般是以知识分类为基础,按照信息资源分类的实际需要建立的。通常是在基本部类的基础上,由基本大类、简表、详表、复分表组成的。其中,基本大类、简表、详表构成类目表的主表;复分表,又称附表,是一种结合主表使用编制的辅助表。下面本书以等级列举式分类法为主要依据,同时适当结合分面组配式分类法的特点,对类目表的结构组成做一个概要的介绍。
(1) 基本部类
我国综合性文献分类法采用的基本部类,一般依据对知识领域整体关系的了解,将知识门类分为哲学、社会科学、自然科学三大部类;同时根据马列主义、毛泽东思想的指导作用和文献分类本身的需要,设置马列主义、毛泽东思想和综合性图书两大部类,构成五大部类。
外国文献分类法通常也均根据对学科领域及其关系的了解,确定相应的基本部类。如《杜威法》的基本大类,是在理性知识、想象知识、记忆知识三大部类的基础上层开的;《冒号分类法》各主题领域的类表,在自然科学、人文科学、社会科学的基础上层开;《布立斯书目分类法》则将其基本部类依次划分为哲学、科学、历史以及技术和艺术四大门类。
档案等其他文献类型则一般根据其处理对象的特点确定基本部类,如《中国档案分类法》的基本部类为政治、科学文化和经济。表5—1列出中国法等四部分类法的基本部类。
基本部类的划分涉及分类体系的整体展开方式,因而受到分类界的广泛关注,但一般不在分类表中单独列出,也并不是所有的分类法都明确建立基本部类。
(2)基本大类
传统的文献分类法一般均以学科为中心设置基本大类,构成从学科角度展开类目体系的方式。在大类设置的数量上,早期的文献分类法,如《杜威法》,由于当时学科发展状况的局限,基本大类只设置了十个类目,比较概略;其后编制的分类法逐步增加了大类数量,一般均以传统学科领域为基础,将基本大类保持在20个左右。如《国会法》21个、《布立斯书目分类法》22个、《中图法》22个、《科图法》25个等,各个基本大类的规模也比较均衡;《冒号分类法》的大类一度曾达到42个,但由于大类过多不利于用户对分类法的整体把握和标记分配,因此,第七版将其规定为26个大类。这一事实说明,基本大类的设置也不宜划分过细。与传统分类法不同,指南型网络分类工具的大类设置放弃了以学科为中心确定类目结构的传统,采用以主题为中心或主题与学科结合的设类方式,形成与传统分类法不同的直接性、通用性结合的展开基础。大类的数量则一般保持在14到20个之间。
大类序列的基本要求是应能较好反映各知识门类之间的联系。文献分类法一般均重视对各个门类关系的揭示。国外文献分类法一般根据从总到分的次序,将综合性大类置于首位,然后展开具体类目。早期的《杜威法》,未能合理揭示诸如文学、语言学等对大类之间的联系,受到广泛批评;其后的分类法,如《国会法》、《布立斯书目分类法》等,在大类设置上均注意了对类间关系的揭示。我国文献分类法大类的序列,则是在大部类的基础上,将马列主义、毛泽东思想设为第一个大类,同时在类目的序列中贯穿从总到分的原则,注意将相关类目集中设类。如《中图法》中,将自然科学部门的类目按照从简单到复杂、低级到高级的次序排列;在社会科学门类中,将政治、法律、军事等上层建筑的类目,语言、文学、艺术等内容密切联系的类目采用接近设类的办法显示
(见表5—2)。
与传统分类法不同,指南型网络分类体系多数未按照类目之间关系序列。英文网络分类体系多以字顺方式排列基本大类,我国的网络分类工具大都依检索频率等因素序列类目。这类方式便于类目的调整和增补,但不符合分类法相关揭示的基本要求。基本大类的设置和序列是整个分类法展开的起点,关系到整个分类体系的展开方式,目此许多文献分类学者对基本大类的设置十分重视,进行过许多研究。但也有人认为,基本大类只是类目体系的初步划分,对检索的影响不大,关键是大类下分类体系的展开是否合理,应将重点放在各专业领域类目体系的建立上。
(3)简表
简表的作用有两个:一是可以帮助用户迅速了解整个分类法的概况,以便通过它的引导,方便地在详表相应门类中查找相应的类目;二是可供概略分类使用,如直接作为中小型文献单位的标引依据,或供专业文献单位对非专业文献标引时使用。在此情况下,对已使用简表部分,不得再同时使用详表标引。《杜威法》的简表由其前三级类目组成,共1000个类目;《中图法》第四版的简表由前二级组成,共约近250个基本类目。
(4) 详表
使用时,一般应在弄清类目之间关系的基础上准确了解类目的含义,确切归类。在组配式分类法中,其详表则是由详细规定的组配规则和按范畴设置的基本概念表组成,可以依据标引规则,以组配方式标引信息资源的主题内容。
2.复分表
在主表展开时,不少类目的进一步区分往往需要采用相同的划分标准,并得到相同的子目。例如:各国政治、各国经济、各国军事、各国文化概况等,在按国家进一步区分时,均可分出相同的地区类目;又如,中国经济史、中国军事史、中国文化史、中国政治制度史等类目下,在按时代进一步区分时,均可区分出相同的时代子目……(见表5—3)。为了增强类表的细分程度,缩小类表的篇幅,分类法一般将这些共性子目抽出,单独编列成表,供有关类目进一步区分时共同使用。这种指将主表中按同一标准对类目划分产生的一系列相同子目抽出,单独编列,供主表有关类目共同使用的表,称为复分表,亦称副表、辅助表、共性区分表。复分表是分面组配的一种基本使用形式。利用复分表处理共性区分问题的作用是:
① 缩小类表的篇幅 通过使用复分表,可以使类表在较小篇幅的情况下,达到较大的细分程度。对于已经编制复分表的共性类目,在需要进一步揭示时,不必在类表中重复设置类目,只要规定使用复分表就可以了。
② 加强类表的伸缩性 可以根据实际使用的需要,通过在分类体系展开中增加或减少复分表的使用,调整细分程度,加强类表的灵活性。
③ 增强类表的规律性 采用统一方式编列共性子目、配置号码,有助于使类目体系的列举更加一致,增加类目的助记性。表5·3 共性子目举例通用复分表,又称共同区分表,是一种供整个文献分类法有关类目共同使用的表,通常在类表的前部或后部集中编列。综合性文献分类法中常用的通用复分表有:标准复分表、地区复分表、时代复分表等。其中,标准复分表国内亦称总论复分表,是一种通用主题和信息资源类型的复分表,通常收入适用于整个分类体系的通用性主题,
复分表作为在主表基础上采用的一种辅助区分手段,使用时一般应注意:①除有明确规定外,一般必须结合主表类目使用;②是否使用复分表,应根据复分表中的说明以及类目下的注释确定;③文献单位可以根据需要对复分表的使用加以调整,但一经确定,就应严格遵守,不得随意变动,以保持复分表使用的一致性。④由于复分表使用意味着新的分类成分的插入,一般还应注意标记配置方面的有关规定。
二、标记符号
分类法的类目体系是按照类目之间的关系确定的,但由于类目之间的关系类型多样,数量巨大,人们无法凭记忆来确定类目的相对位置,因此要使文献分类法成为一个实用工具,需要有一种符号系统来固定类目的相对位置,表示类目之间的相互关系。分类法的标记符号就是根据这一需要设置的。所谓标记符号,亦称分类号,是分类法中用于标识类目的代号。分类号具有固定类目次序,显示类目之间关系的作用,是分类法的重要组成部分。使用分类标记是现代分类法充分发挥效用的基本需要,通过以分类标记为中介,可以将分类体系有效地用于组织文献收藏和建立分类检索工具。
当然,分类标记也会给类目体系带来限制。这表现在,一是类目体系一旦配置号码,就要受到号码的约束,类号的变动要考虑到与已配置号码的关系;二是如果配置方法不当,类目体系的扩充或调整就有可能受到号码系统的限制,从而影响分类体系的发展。因此,分类号的配置应当根据分类体系的特点和需要进行,并应力求将分类号对类目体系的限制降到最低的限度。
1.分类号的要求
分类标记必须由具有固定次序、并为人们普遍熟悉掌握的符号系统组成。常见的这类符号系统主要有数字、字母等。分类标记通常由数字、字母及相应的辅助符号组成。在实际使用中,分类标记一般应当符合以下要求:
(1) 简明性 即要求号码简短明了、顺序性强、易读、易写、易记、易于排检、易于输入电子计算机,适合实际使用的需要。
(2)表达性 指标记不仅能表达类目的排列次序,而且能揭示类目的结构特点。结合类十卧 表的不同编制方式,类号的表达性大体有两类,其一,能表达类目体系的等级性,揭示类目的从属、并列关系;其二,能表达类目的分面结构,显示复合主题的组配成分。
(3) 容纳性 又称扩充性,指标记系统能根据发展的需要,随时为类目体系的各种增补变动配以恰当的号码。分类标记对容纳性的需要是由分类法的动态性决定的。
(4) 助记性 即帮助记忆的能力。目的是通过号码配置中的规律性,改进标记的易用性,改善检索效果。常用的方法如,对类表中同一含义的子目配置相同的号码。此外,在复分或组配中以一致的辅助符号进行关系揭示也可以增强助记性。
上述各种性质中,简明性、容纳性和表达性之间是存在冲突的。分类标记的设置,一般应在充分保证容纳性的情况下,根据分类体系的任务,处理好简明性与表达性的关系。
2.号码种类
号码种类是根据号码的组成成分,对标记进行区分的一种方式。按照号码组成成分,分类标记可以分为单纯号码、混合号码两种。由一种具有固定次序的符号系统组成的号码,称为单纯号码。由两种或两种以上具有固定次序的符号系统组成的号码,称为混合号码。单纯号码最常用的有数字和字母两种。数字号码顺序性强,易于排检,使用普遍,具有国际通用性,但基数较小,在使用表达性标记的情况下,当下位类目的划分超过10个时,通常需使用两位数字表示一次划分,从而使号码变长。字母标记基数大,对同样数量的类目进行标记时,可以使号码相对较为简短。在使用层累标记制的情况下,大多可以用一位字母表示一次划分,不足是字母标记的排检不如数字迅捷,使用也不如数字普遍。
1) 顺序标记制 按照类目在分类体系中的次序,配以顺序号码,号码只表示类目的次序,不显示类目的等级或其他关系,这种配号方式称为顺序标记制.顺序标记制可以根据类目数量均衡地分配号码,标记简短,容纳性强,适合组织文献排架,但不能揭示类目体系的结构,无法在机检系统中通过标记按等级显示机读文档。如美国《国会法》采用的就是顺序标记制。该分类表共有40多万个类目,但多数类目的标记仍保持在两位字母和四位数字以内,以便供文献排架使用。
2)层累标记制 按照类目划分等级配置相应位数号码,号码不仅可以反映类目次序,并可以根据标记的位数判断出类目的等级,通常一级类日用一位号码表示,二级类目用二级号码表示;同位类再顺序配以号码,这种标记方式,称为层累标记制。层累标记制的优点是,可以揭示类目的等级结构,使用它,能够在机检系统中通过标记逐级显示分类体系。其不足是,如类目划分等级较深,会造成号码过长;其次,如同位类数量较多,超过号码的基数,就无法严格按等级编号,如:数字标记一次划分超过10个时,就必须采用一定的扩号办法,如八分法、双位制等解决;此外,在配置顺序号码的两个同位类之间出现新类时,类号的扩充也会出现问题。为了增加号码配置时的容纳性,一些不用于排架的分类法往往以两位甚至更多位数的数字表示一次划分。我国的《中图法》基本采用层累标记制。
3) 顺序一层累标记制 是一种结合采用顺序制和层累制的标记方式。目的是,试图汲取两者优点,使标记能同时具有较强的简明性和容纳性,又能够保留一定的表达性。顺序一层累标记制的典型例子是《科图法》的标记系统,该标记的前两位数字采用顺序制,用于标示基本大类和二级、三级类目;两位数字后,用小圆点隔开,其后基本使用层累标记制。
4) 分面标记制 这种标记制度通常以特定的符号或组配方式表示各个主题因素所属的分面,使号码不仅能够揭示类目的次序和等级,而且能够显示类目的分面结构。常见的分面标记采用分段组合方式,即通过分面符号的使用,使其成为一种由若干具有独立性的节段组成的分段组合号码,可用来进行轮排或以组配方式检索。
这种标记的优点是其表达性及由此带来的可组配性,可以充分揭示文献主题,并进行轮排和组配检索。其不足是号码成分复杂,标记冗长,排序性差,很难适应文献排架的需要。
4.标记技术
为了使标记系统在具有表达性的同时保持容纳性和简明性,分类标记一般还采用以下各种标记技术:
(1)八分法
即在层累数字标记中,当同位类超过10个,不足18个时,前9位以0—8表示,在8后面用两位数字表示一次划分,用于解决同位类的号码配置问题。例:下述《中图法》类目的号码配置就使用了
(2)集团标记法
即在数字层累制标记中,当周位类超过18个时,用两位数字表示一次划分,以解决号码的扩充问题。
(3)借号法
在层累标记制中使用的一种灵活借用上位类或下位类的号码配置方法。通常在上一级号码较宽裕时,用上级号码标示下级类目,在下级类目超过10个但超过不多时,根据情况,借用9以外的下级号码进行扩充或借用其他同级标记,使号码配置更加灵活。
(4)预留空号法
指根据学科发展和类目设置的可能,在号码配置时,预先留下一些空号,供类目增补时使用。
晶体学
(5) 对应编号法
即按照类目设置的规律统一配置对应号码,使标记:具有规律性,一致性,方便用户使用。例如,按照类目设置规律,在《中图法》中,对于涉及地区的类目,凡中国,一般使用2,亚洲使用3、非洲用4,欧洲用5……等表示,以增强标记的助记性。
(6) 字母标记法
即在数字标记中,直接以类名的首字母为标记,标示下一级类目。这一标记方法一般只用来序列类表的最后一级类目。美国《国会法》中经常采用此法。通过以上各种标记技术的使用,使标记体系具有更大的适应性,可以根据类目体系发展和实际使用的需要,灵活地加以配置。
三、说明注释和索引
1.说明与注释
说明与注释是有关分类表体系结构及使用方法的说明性文字。分类法通过它说明类表的编制原则、类目体系的特点以及使用方法等。通常包括:编制说明、大类说明和类目注释三种形式。说明与注释是帮助用户了解和使用分类体系的不可缺少的组成部分,也是衡量分类体系质量的重要因素。
(1) 编制说明
编制说明亦称序论,是对分类体系整体情况的纲要性说明。内容包括该分类法所依据的编制原则、分类体系特点、号码制度以及基本使用方法等,有助于从整体上了解分类体系的特点。
(2) 大类说明
大类说明是对各个基本大类结构特点的纲要性说明。内容一般包括该基本大类的内容范围、类目体系或分面结构的特点以及该类的基本规则等。大类说明有助于用户充分了解各类的范围和展开结构、分类要点及与相关知识门类的关系等,是了解各类分类方法的重要依据。在使用有关类对信息资源分类前,一般应注意熟悉该大类的说明。
大类说明一般收于每个基本大类之前或集中收录于分类法的使用手册之中。
此外,《中图法》第4版还以突出的方式,通过注释对一些分类的特殊规定加以说明。
说明与注释有利于改进分类法的易用性和标引的一致性,提高分类标引的质量。
随着分类法的发展、各种分类技术的广泛应用,分类法说明与注释的重要性也在逐步增加,一些著名的文献分类法均以不同方式加强和改进对说明与注释的编制。如《中图法》除编有详细的类目注释外,另编有配套的使用说明。国外分类法中,《杜威法》的说明与注释十分详尽,从20版开始,将原单独编制的使用手册收入分类法,成为类表的有机组成部分,《国会法》、《冒号法》、《国际十进分类法》等也均编有配套出版的详细使用说明。
2.类目索引
分类表是按照类目之间的关系组织起来的一种系统组织和揭示的工具,使用时,通常
也要求按照类目之间关系,通过对类目关系的层层判断进行查找。由于分类体系涉及的知识门类多、范围广、类目关系复杂,对于一些小主题的查找,往往需要对有关门类知识关系有一定了解,同时需熟悉分类体系的设置特点,才能够找到。至于一些同时涉及几个门类的复合主题,即使熟悉类表的人,也需要经过辗转查找才能找到。例如“土壤污染物处理”这一主题,涉及农业科学、环境科学、卫生学三个门类,需要根据分类体系的具体设置情况才能判定其归属,给使用造成一定困难。类目索引是一种按主题字顺方式,从主题名称指向分类号或相应类目,帮助分类人员利用类目表的工具。这种索引将类目作为查找对象,通过将类目体系的系统排列转变成字顺排列,在每个类名及同义词后记录该类的分
如《中图法》的大类说明集中于《{中图法>使用说明》之中,《资料法》第二版则将大类
、说明列于每个大类之前。国外分类法中,《杜威法》从第20版开始,直接将标引手册收入分类法,成为分类法的一个构成部分。《冒号分类法》等分面分类法的各大类前,一般都有对该类分面结构的详细说明。类目注释类目注释是对类目的补充说明。主要是通过它说明类目含义、范围、与其他类的关系,以及具体的使用方法,对类目的使用进行规范控制,以保证分类的一致性。
(1) 直接索引
直接索引是一种直接通过类名或同义词查找对应类目的索引。通常是将分类表中类目名称,包括其同义词、注释中小主题名等按字顺排列,于每一索引条目后注上相应的分类号码,从而可以从类名出发查找对应的类号。在确定索引条目时,对类组、复合类名等需进行分解,对类目下包括的小主题名,应逐一列举,并在其后注明对应的分类号。我国《中国人民大学图书馆图书分类法》的索引就属于直接索引。
(2) 相关索引
相关索弓[是一种不仅可以从语词出发查找对应的类号,而且可以集中被类目体系分散了的一主题各方面类目的工具。相关索引为美国图书馆学家杜威首创,最先用于《杜威法》索引的编制,因可以揭示分类法中的相关材料而得名,受到文献分类界的重视。这种索引除采用直接索引的方法外,还采用倒置、按学科集中等形式,将一个主题各个方面的类目都集中在一起。下述《中图法》的索引条目就是按相关索引的要求编制的。
相关索引的编制比直接索引复杂,特别是其中字面不同的相关类目的集中,有较大度。优点是可以集中一主题在类目体系中被分散了的相关事项,用途比直接索引大。此外,随着上一世纪70年代以后,分类主题一体化类表的编制和使用,一些分类法通过与主题法结合,发展了标题索引、叙词索引、关键词索引等索引形式。
在索引编制手段上,还发展了利用联机目录中分类号与主题词的同现率作为编制依据,用以改进索引的编制。
类目索引是分类法的重要组成部分,但必须注意,它只是分类表的辅助工具,一般不能直接根据索引分类。必须在查核类表,明确该类在类目体系中的位置和关系,了解其确切含义的基础上才能依据它归类。 第三节 类目体系的建立 (1)
类目体系的建立可以有两种方式,一种是采用归纳的方法,从个别到一般,根据个体属性的相同点集合成类,并依照这一方式,逐步将小类聚合成大类,建立起类目体系;其二是采用划分的方法,从总到分,从一组概略的类目出发,通过逐级划分层层展开。不管是法,最终都能建立起一个依照层次、等级逐步展开的分类系统。在一些情况去也可以结合进行,例如在采用层层划分展开类目体系的同时,对部分类目采法设置。根据国内多数分类体系编制实践和用户使用习惯,为了便于说明,本系的建立,按照从总到分的方式予以讨论。
一、类目的划分
类目的划分,是指依据一定的属性或特征对类目的外延进行区分,生成一组子目目划分是类目体系建立的基本方法,是逻辑方法在信息资源组织中应用的重知,类是分类体系的基本构成单元。
对类目的划分是可以连续进行的,例如:在各高等教育下,可以进一步根据高等教育涉及的国家进行区分,得到中国高等教育、朝鲜高等教育、日本高等教育、美国高等教育、英国高等教育、法国高等教育、德国高等教育等一组类目;在各国高等教育下,还可以依据研究的对象,进一步区分出教育理论、教育方法、教育设备、教育的组织、教育管理、教育对象、课程教学、教育机构等。这样,通过层层划分,就可以建立起一个逐级展开的教育文献的分类体系。类目体系的建立,就是这样一个从基本类出发,按照区分对象的属性,层层划分、层层展开的过程。
在类目体系展开过程中,一般须遵守一定的逻辑划分规则:其一,每次划分只使用一个标准,一般不得同时采用两个或两个以上的标准,如:当教育文献在依据教育等级进行区分时,就不能同时使用涉及的国家或教育活动的具体内容为标准进行区分;其次,划分应该穷尽被区分类的外延,使划分后子类之和与母类的外延相等,使该分类领域下所有的内容对象有类可归;其三,划分后各子类应相互排斥,界限分明,类目之间不应存在相互交叉现象。实际上,只要严格贯彻第一条规则,划分出来的子类必然会相互排斥。
现代分类法,无论是哪一种类型的分类法,基本上都是依据信息资源主题内容的属性和其他特征,遵循逻辑分类规则建立的。目的是依据一定的知识结构建立起一个有层次的类目体系,使得每一种内容或特征的信息资源,都可以在这一分类系统中具有相应的位置,用户可以通过这一体系,查检所需要的信息资源。在目前已有的分类形式中,列举式方式的类目体系是通过类表直接显示的,较为直观;分面组配方式的分类体系则是隐含的,比较抽象。由于受等级和篇幅等的限制,等级列举式分类法对类目的划分一般依据主要特征展开,比较概括,对展开的维度有较强的选择性,为了减少类目展开的层次,有时一次同时采用两个或多个标准,类目设置比较均衡;分面组配式分类法对类目的划分则比较充分,往往是按照范畴,多角度、多层次地进行的,对逻辑划分规则执行得也比较彻底,但对类目的等级和分布无法如列举式类表那样有针对性地配置和调整。现代分类法的实践表明,如何在基本大类或特定学科、专业下按照使用需要,以一致、可以预见的方式展开类目体系,是建立实用、有效的分类体系的关键之一。这涉及分类标准的引用次序、类目的排列次序、横向关系的揭示、类名的确定等内容,下面分别予以讨论。
二、引用次序
前面已经提到过,引用次序,是指复合主题在标引和检索中,不同主题因素的组配次序。在不同的情况下,引用次序往往会表现为不同的形式。在列举式分类法中,引用次序是指分类体系展开过程中,类目划分标准使用的先后顺序;在分面组配式分类法中,引用次序则表现为复合主题中不同组面被引用的先后次序。例如,将“高等数学教学”这一主题按“高等教育一数学教学”的次序组配,是指分类体系把有关各级课程教学的文献按“各级教育一课程”的次序加以引用。
分类标准使用的先后次序规定类目体系的展开方式,规定复合主题如何集中,是分类系统建立的中心问题之一。在分类体系建立过程中,选择何种属性为分类标准以及按照何种次序加以引用,决定着类目体系展开方式,对分类体系的性能有直接影响。
在表5—4中,第一个分类体系按“体裁一国家一时代”的引用次序编列,大体上与《人民大学图书馆图书分类法》的使用的引用次序接近;第二个分类体系按照“国家一体裁一时代’’的引用次序展开,基本上与《中图法》采用的引用次序一致。可以看出,第一个分类体系按体裁一国家一时代的引用次序建立类目体系,可以按体裁集中各国的文学作品,但从国家、时代的角度也是相对分散的;第二个分类体系可以将一国各种体裁文学作品集中在一起,但从文学作品的体裁、时代的角度看则是相对分散的。由于引用次序的不同,类目体系的功能特点也是不同的。从文学的这两个分类体系展开的特点看,第一个分类体系按照体裁集中,便于从体裁角度查找文学作品,比较适合普通用户按照体裁使用资源,适合一般公共文献单位的实用需要。第二个分类体系,可以方便用来对一国各种体裁文学作品的选择,便于按照从国家出发对文学作品查找使用,比较接近于文学研究者的使用需要,和用户从国家的角度使用文献。可见,引用次序决定着类目体系以何种方式集中信资源以及提供什么样的检索途径问题,是与分类体系的性能和适用性密切联系的。关键应根据用户的检索需求,结合主题领域的特点,确定适用的引用次序。为了同时兼顾各种不同引用次序的特点,满足从不同角度查找的需要,目前国内的网络分类体系往往同时采用几种引用次序组织文学作品的分类体系。
由于引用次序在类目体系建立中的重要作用,这一问题受到国内外分类界的广泛重视。信息资源中可以作为分类依据的事物属性很多,内容属性有学科、事物对象、种类、方面、部分、材料、性质、操作、工具、设备等,其他特征有体裁、国别、时代、形式、用途等,关键是如何合理在这些属性和特征之间确定其相互关系。在分类法编制时为了合理选择划分的依据,世界分类界对引用次序进行过许多研究,提出了一系列通用的引用次序,比较著名的有阮冈纳赞的五个基本范畴,英国分类法研究小组维克利等学者提出的标准引用次序等。
阮冈纳赞按照具体性递减的次序,将引用次序确定为:本体(P)一物质(M)—一动力(E)一空间(S)一时间(T)。
维克利依据目的性原则和相互依存原则,对阮冈纳赞提出的5个范畴进行了有层次的分析和详尽划分,提出其引用次序为:产品一结构一成分一性质一材料一过程一空间一施动者或工具。
密尔斯在进行布立斯书目分类法分面改造的过程中,提出不同范畴的分面引用次序为:事物一种类一部分一成分一性质一过程一操作一施动者或工具。
但这些引用次序都是根据一般情况提出来的。从类表编制的实际需要看,关键是应结合各学科的具体情况和用户需要加以实施。从目前实际使用的情况看,在特定领域中,一般可按下述方式进行:
(1) 根据各主题领域的特点,按用户检索目的或主要对象确定主要标准或首要分面,将这一分面作为组织该学科文献的中心。
(2) 根据依存原则确定其余各种分面之间的引用次序。
(3) 对特殊主题领域,根据用户需要和该领域的特点,对引用次序进行确定。
NOTES: 一般情况下,文献排架以及检索工具需要遵循一个固定的引用次序,在这一次序中,各个复合主题都有其确定的位置。实践证明,在某些领域,不同用户对象对引用次序的要求是不同的,单一的引用次序无法满足不同用户的各种需要,总有其不足。如前面文学类的例子所示,按照国别一体裁一时代进行组织比较适合普通用户的用书习惯,按照国别一时代一体裁则较符合专业人员的使用需要;再如:对于法律文献,普通用户习惯于对一国的各种法律进行查检、使用;专业研究人员则较多地从法律部门的角度对法律文献进行研究。因此,文献分类法的引用次序一般应根据文献单位的特点,按照多数用户的要求,有针对性地建立;同时可使用其他方式如索引、主题法等对被分类体系分散的内容从不同角度加以弥补。在电子环境下,这一情况还可以结合超文本技术,以链接的方式通过重复反映同时采用多表显示的方法解决。
第三节 类目体系的建立 (2)
三、同位类排列
从同一个上位类区分出来的一组处于同等地位的子目,称为同位类。一组同位类,又称为一个类列。同位类如何排列的问题,决定着并列类目之间的排列次序,是类目体系保持逻辑性、系统性的一个重要方面。
为了使分类体系中同位类的排列具有规律性、系统性和实用性,分类法对同位类的爿F列一般均按照类目内容之间的关系和实用需要进行。对同位类系统排列的作用是:①可以揭示类目之间联系,方便相关类目的查找;②有助于结合类目的排列,明确类目的含义;③只要在系统排列中采用统一方式,就可以增加类目排列的一致性和可预见性。对于同位类的排列方法,国内外分类学者进行过不少探索,提出了一系列的排列模式。常用同位类序列方法包括:
(1) 按时间先后顺序序列。如:将历史类子目按先后次序排列为:上古史一古代史一中世纪史一近代史一现代史;
(2) 按事物进化顺序排 即按照事物本身发展的客观过程和先后程序序列。如按照自然进化顺序序列生物学类目:古生物学一微生物学一植物学一动物学一昆虫学一人类学;
(3) 按空间次序排 如,按地理次序序列各国政区,如中国一亚洲各国一非洲各国洲各国一澳洲各国一美洲各国。
(4) 按逻辑次序排 即按照从总到分、一般到个别、理论到应用的次序加以排列。如按照从总到分、从理论到个别序列工业经济:工业经济理论一工业部门经济理论一世界工业经济一中国工业经济一·各国工业经济;
(5) 按依存次序排列 即如一主题的存在有赖于另一主题的存在,则该主题排列在另一个主题之后。例如,按照各部门的依存次序关系排列工业技术门类的有关类目:矿业工程一石油、天然气工业一冶金工业一金属学与金属工艺一机械仪表工业。
(6) 按惯用的次序排 即按照科学、教育中普遍采用,为人们所熟悉掌握的次序排列。如按照惯用次序序列群众运动类目:工人运动一农民运动一青年运动一妇女运动;
(7) 按实用顺序排 即根据便利用户实际使用需要所确定的次序排列。如将各种语言排列为:汉语一我国少数民族语言一常用外国语一按语系区分的其他外国语言。
(8) 按照字顺次序排 通常在级别较深的子类排列中使用,多用于西方语文的类表。
为了加强类目排列的规律性、可预见性,对相关类目的排列,除采用上述常用序列方法外,分类体系一般均注意类目排列的一致性和对应性。例如,大型等级列举式分类法在对各国或各时代的类目进行列举时均尽可能与地区表、时代表的类目保持一致;对各种主题、文献类型的排列次序,注意与通用主题、文献类型复分表一致。此外,各门类中划分特]征相近的类目,在类目排列上也尽可能采用一致或接近的方式。
类目的排列涉及面广,情况多样,因此在类目设置和排列上很难以单一的方式要求,一般可以根据系统排列的常见模式,结合信息资源的具体情况和使用需要确定。
四、横向关系的揭示和处理
类目之间的联系不是单维的,而是多方面的。一个知识门类可以同时从属于两个或两个以上的科学部门,也可以同时与多个部门保持联系。前者如国家理论,它既从属于历史哲学,同时又是政治理论的基本组成部分;后者如中共党史,它既是中国共产党类下的重要组成部分,同时又与中国新民主主义时期历史存在着密切的联系。因此,要有效建立分类体系,除按照类目的主要关系对类目进行区分和排列外,还必须合理处理多维关系揭示的问题。传统分类法鉴于文献组织的任务,以及传统检索工具的特点,对这类问题,一般是在单线序列的基础上进行处理的,其基本做法包括:
(1) 设置交替类目 所谓交替类目,是指在为一个知识门类设置使用类目的同时,在相应门类下设置的具有同一关系的类目。这类类目一般用“[尸括起,注明“宜人XX”或“XX人XX”,本身不能用来分类,只起引向使用类目的作用。这一方法主要用于具有多种从属关系的类目,目的是为了充分揭示主题之间的联系,保持学科体系的完整性,同时又不至于分散同一内容的文献。交替类目与相应使用类目之间形成的关系,即为交替关系。
交替类目是传统分类体系处理多重从属关系与类目体系单线排列这一矛盾的主要方法。它的设置可以完整体现一事物的多方面联系,方便用户从不同角度查找该类目;同时也提供了选择使用的可能,使分类法具有一定的灵活性。
建立参照。即以类目参照的方式,用于指明类目之间除从属、并列、交替等方式以外的其他联系。类目参照一般用于内容上存在着密切联系,但在分类体系中被分散了的类目之间,通常采用互逆的方式在相关门类下注明。
类目参照可以揭示类目体系中分散了的联系,使得类目之间关系的揭示更加充分,是分类体系完备地揭示类目之间联系的一种重要措施。设置选择类目。即在主题内容存在着不同处理可能时,指明可供选择的不同处理办法,供选择使用。这类处理通常在涉及集中与分散的时候进行,一般在总论性类目下注明。例如,《中图法》规定,029应用数学下注明,具体的数学应用人有关各类,但如愿将各种应用数学集中时,可用组配编号法,在此类下与相应主题的号码组配编号。例:工程数学标引为029:TBll。设置选择类目有助于根据所有需要,以灵活的方式处理相关类目,增加类目处理的实用性,但这一方法不能揭示这类类目之间的横向联系。设置选择类表。即根据不同单位或用户的需要,为一领域信息资源的组织同时编制不同的类表,供选择使用。例如:《中图法》就同时为法律类编制了两个类表,一个表按国家一法律的应用次序组织各国法律,供一般图书馆使用;另一表则按法律一国家的次序建立类目体系,供专业文献单位选择使用。
这一处理方法类似设置选择类目,但比选择类目更加系统,有助于增加类表的灵活性,适用性。
规定类目的归属。即按照单线序列中类目设置需要,规定类目处理的规律。这是传统文献分类法处理一般横向联系最常用的方法。例如,分类法一般都规定,一种理论方法在一知识门类的使用,应归人该门类。这类方法有助于以统一的方法组织信息资源,但不熟悉分类体系的用户往往无法了解,也不能揭示相关门类的联系。
五、类名的确定
类名是分类体系中表达类目概念的名称,它规定类目的含义和范围,是分类语言中表示类目概念的词汇单元。分类法的类名通常由单词或词组构成,用以表达学科、专业、事物对象及其方面等。如“物理学”、“半导体”、“摄影技术”等词均可直接作为类名。此外,在等级列举式分类法中,还常常会出现由几个内容上存在着联系的学科或涉及事物的方面、操作等的短语组成的类目名称。如“高压与高温物理学”,“分子的性质及其测定’’等。
类名在分类体系中通常只起表达该类目含义的作用,但由于现代类表常常在类目体系的基础上,通过计算机处理直接编制类目索引或叙词表,因此对类名控制的要求正在变得越来越严格。
一般认为类名的选择具有以下要求:
(1) 科学 即类名应使用能准确反映其含义,被广泛接受的名词术语,语词严谨、明晰、完整,一般不再同时收入其同义词、近义词、俗称等。近年来,为便于通过计算机转换直接编制对应的叙词表或索引的需要,一些现代分类法往往同时有选择地收入一词的各种同义词等,但多数分类法对收人类表的语词数量仍有较严格的限制。
(2) 简明 即所使用的词汇应简短、明了,尽量使用精炼的术语,避免冗长、拖沓。在列举式分类法或按倒排方式编制的组配式类表中,通常略去子类或子分面的上位概念,只记录区别于上位类的子类的概念,其表述的含义必须结合其上位类的概念加以了解。
(3) 确切 即语词应能准确反映类目的内容含义,贴切揭示类目概念的内涵和外延使用类名无法确切揭示类目范围时,应通过类目注释加以补充说明。
(4) 通用 即使用的语词应符合用户使用的习惯,有较好的通用性。特别是在通用性的分类工具中,应以多数用户的使用需求为依据,使类名易于理解,不会给信息资源的查找造成困难。
从上面对类名的选择可以看出,由于分类语言中的类名并非标识,对词汇的选择以及词形控制的要求不如主题法严格。类目作为分类体系中的概念单元,其含义及关系是通过类目体系加以展示的,除了类名和必要的注释外,对分类体系中类目的含义及词间关系,主要是依靠类目体系的系统展示,通过类目的从属、并列、相关等方式来加以揭示页结合对类目之间关系的了解力n以把握。旧之间的关系及其形式然等级列举式分类法与分面组配式分类法类表的形式有所不同,但两者最后完成的分类体系就其实质而言是一致的,都是通过层层划分,按照等级、并列等方式建立的详尽的分类体系。
其分类体系在结构上有以下特点:
①、类目体系是按照类目之间的内在联系组织起来的,能够比较充分地显示一个学科或专业领域中知识门类及其关系的全貌,便于从一个学科或专业出发对信息资源进行浏览;
②、通过缩格、并列、交替、参照等多种方式显示类目之间的各种联系,包括,从属、并列、交替、相关关系等;
③、 以直线方式排列以满足文献组织和检索的使用需要。
下面本书着重对分类体系中类目之间各种基本关系的表现形式与特点作一概要从属关系 从属关系指类目体系中一个类与其直接区分出来的子类之间的关系。在这一关系中,被区分的类,称为上位类,亦称母类;区分出来的类,被称为下位类,又称为子类。如下例中,生物科学与普通生物学、细胞学、微生物学、植物学等之间即为从属关系。
在类目体系展开的过程中,上、下位类是相对的。例如,植物学是生物学的下位类;又是植物细胞学的上位类。通过连续划分形成的一系列具有从属关系的类目i称为类链或类系(chainsofclass)。如下例中,“生物科学一植物学一植物分类学千孢子植物一藻类”就属于一个类系。在等级列举式分类法中,类系的起点通常为基本大类。根据类系中类目划分的等级,人们习惯上将具有从属关系的各级类目分别称为一级类目、二级类目、三级类目等,等级列举式分类法大多采用缩格及大小字体等形式加以表示。同一类系中类目之间的关系均为从属关系。从属关系类目之间存在一种限定关系,上位类的属性或特征必然会存在于下位类之中或对下位类产生限定作用。因此,要准确了解一个下位类的含义,必须注意结合其上位类的属性。按照概念关系的性质,从属关系的类目包括属种、整部、方面等三种基本类型。属种关系主要用于对生物、事物及其概念的类型进行区分,特点是:上位类必然能包括下位类的外延;下位类必然具有上位类的属性。如表中植物学与植物演化与发展、植物细胞学、植物遗传学、植物形态学等类目之间的关系就是属种关系。方面关系通常用于一学科或主题与有关的各个内容方面、事物与其材料、性能等。
此外,类目体系还常通过使用类聚词,如设置“一般性问题”类,与有关下位类建立联系。
这样,通过对上述各方面关系的揭示,使得一主题领域的关系得以完整地层示。
(2)并列关系 并列关系指类目体系中同位类之间构成的关系。如前所述,所谓同位类,是指由同一个上位类区分出来的、处于同等地位的一组类目。如上例中,植物的演化与发展、植物细胞学、植物遗传学、植物形态学、植物生理学、植物病理学、植物生物化学、植物生物物理学均为同位类。同位类之间由于都带有上位类的属性或为上位类所限定,具有相互联系的一面。
同时,它们之间又各有自己的特有属性,因此又是相互排斥的。分类法使用时一般应根据同位类的种差,判定类目的含义和确切范围,正确归类。类目体系中处于同一等级的类目,称为同级类。同级类由于不一定属于同一上位类,类目之间往往并没有同位类所具有的那种联系,应加以区别。 同位类通常是依据一个单一的划分标准对上位类进行区分形成的,但在等级列举式分类法中,划分规则的执行并不彻底。有时为了减少类目划分层次,往往根据文献特点和使用需要,同时采用两个或多个划分标准对同一上位类进行区分,从而造成部分外延的交叉重合。
各类教育中的各种具体的教育形式也存在教育的等级问题,与前面的各级教育存在着交叉。对于这类情况,一般应根据各相关类下列类特点及有关说明,明确各类目的含义和范围,以便正确确定并列类目之间的区分界限,确切归类。交替关系 学科之间的关系存在着多维性。一些知识门类往往具有多重从属关系,同时隶属于两个或两个以上的学科。
(3) 相关关系 相关关系指类目之间除从属、并列、交替等方式以外的其他联系。事物之间的联系是多方面的,,文献分类体系的线性序列在揭示类目之间主要联系的同时,往往分散了其他一些联系。为了使类目体系中分散了的联系能得以反映,分类体系通常以类目参照的方式来加以揭示。类目参照一般用于内容上存在着密切联系,但在分类体系中被分散了的类目,通常采用互逆的方式在相关门类下注明。如前例中,植物生物物理学既是植物学的下位类,又与生物物理学具有密切联系,类表通过在类下设置类目参照的方法.对被分类体系分散的类目联系加以揭示。类目参照可以揭示类目体系中分散了的联系,使得类目之间关系的揭示更加充分,是分类体系完备地揭示类目之间联系的一种重要措施。上述四种类目关系类型中,从属关系、并列关系揭示类目体系展开的主要线索,反映了类目的纵向联系;交替类、类目参照则是对类目体系显示的主要关系的补充,揭示被类目体系所分散了的横向关系。通过两者的结合,文献分类法按照类目之间关系建立起纵横交叉的、严密而又实用的分类系统。
六、电子环境对分类法编制的影响
传统分类法基本是采用线性的形式,揭示类目之间联系的,这是文献组织的需要和传统环境的特点决定的。计算机的使用,特另,j是超文本技术的使用改变了这一状况。超文本技术的特点是,可以通过结点之间的链接,以非线性的方式,充分揭示和表达信息之间的联系。以超文本作为检索语言的编制手段,可以便利地表示分类法类目结构和各种关系,用来构造、显示、维护、发展检索语言。
将超文本技术应用于分类法的编制,通常是以类目或相关材料为结点,通过链接的方式,进行结点间的联结。使用这一方式,可以按照分类体系展开的等级和层次,系统地层示分类体系;也可以在此同时,按照知识之间的关系和使用需要,灵活地揭示类目之间 种联系。与传统分类体系展开形式相比,这一方式可以在类目关系显示、类目设置以及相关材料组织等方面具有更大的灵活性、动态性,为分类体系的编制和使用提供了新的可能。
从迄今电子词表、类表管理系统,特别是网络分类搜索引擎的应用实践看,超文本链接的应用,不仅为分类法的系统展开提供了交互式的友好界面,而且极大地改进了类目之间各种关系的揭示,逐步发展了一些不同于传统类目体系的组织和揭示形式。下面是一些比较典型的作法:
(1) 改进主题之间多维关系的揭示 这是超文本技术强项,也是传统分类体系中的一个薄弱环节。知识之间的联系是多方面的,一个主题或事物对象,可以同时从属于两个或多个知识门类,也可以是从属关系以外的其他联系,即相关关系。传统文献分类法由于其单线结构,通常只在确有必要时才以交替类目或类目参照加以反映,往往无法充分揭示主题之间的客观联系。采用超文本技术,则可以克服传统类表的不足,根据知识门类之间的联系和使用需要,对这类关系加以显示。目前网络分类体系中对多维关系的揭示比较充分,一般均通过链接的方式,在相应类下重复反映。
(2) 从多个角度组织信息资源 利用链接的特点,有意识地从不同的属性、角度设置类目,提供从多个维度揭示信息资源的方法。这一方法,虽然在显示形式上与多维关系的重复揭示相似,但不同于单纯的重复反映,而是有意识地增加揭示角度,同时提供多种检索的可能性。
(3) 进行轮排,亦即多表列类 传统分类法一般是根据特定用户群的需要,按照一定的引用次序编制的。引用次序规定着类目体系韵展开方式及其功能。采用超文本方式,可以根据需要,有选择地同时建立多个引用次序的类目体系,以满足不同的需要。
其中的一个引用次序如“国家一各类法律”组织类目体系的同时,再按照“各类法律一国家”的方式设置类目。使用链接的方法,将相关类目在后者类表类目系统下重复反映,同时以两种方式加以组织。类似做法如,网络分类体系中对文学类作品,同时选择按国家、题材、体裁、时代等为中心,通过引用次序的调整展开类目体系等,不仅可以提供不同的检索人口,而且具有建立不同功能的分类体系的作用。这类使用,是不采用超文本技术的情况下无法想象的。
(4)设置镜像类目 所谓镜像类目,是指采用镜像技术,以“拷贝”的方式设置的类目。 统分类法重类目体系的层次性、系统性,但灵活性不够,不能根据实用的需要,及时对类目进行必要调整。采用超文本链接,则可以根据使用需要,通过设置镜像 类目的方式,对某些重点类目或热点类目,加以突出反映,使分类法在保持系统性的同时,具有较强的灵活性和适用性。例如,一些网络分类体系往往根据使用需要,将经济类下的“公司企业”或综合类下的“机构团体”、“BBS与聊天室”等,以镜像方式,设为一级大类,方便用户使用。
(5) 动态组织分类体系 包括动态设置类目和动态揭示类间关系。前者如,在某体育赛事前,将有关类目提前设置;在某节假日前夕,将该节假日提前设类等,使分类体系具有较强的动态性、实用性,方便实际使用。镜像类是这类动态设类采用的基本形式。后者主要是,根据需要,动态调整对类目之间联系的揭示,使其能充分反映有关类目之间的关系和变化。
(6) 用于联结不同的检索系统 这类联结的系统包括:类目索引、标题表、叙词表、自然语言系统、轮排索引以及其他的分类体系等。
(7) 联结说明与规则系统 即通过链接,将分类体系和相应的说明文字联结,使两者之间密切结合,方便用户和标引人员使用。
当然,应该看到,超文本链接只是一种手段,本身是无方向的,并不能自己生成知识结构。因此,必须根据分类体系组织的特点和规律,在已有检索语言研究成果的基础上,结合超文本技术的特点,逐步了解和探索其规律性。包括,应从超文本结构的角度重新审视原有的关于知识组织的理论、方法。探讨各种新技术形式的使用特点和规律。探讨超文本环境下分类结构中整体的控制问题等。
超文本技术在分类法中的应用,目前仍只是开始。对于超文本技术在传统分类法中的应用规律以及因此带来的分类法结构的变化,还有待于进一步探讨。相信经过分类界和计算机界的实践和探索,对超文本环境下的分类法编制必将不断取得进步。
第一节 分类标引概述
一、分类标引的意义和要求
所谓分类标引,又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
分类标引工作是对信息资源进行分类组织的基础和前提,对文献开发利用具有重要的意义。通过对信息资源赋予分类标识,信息机构就可以将各种信息资源纳入相应知识门类,建立起相应的分类检索系统。这样,用户只要根据一定的信息资源特征,就可以按照系统提供的途径进行查找,从资源集合中检出需要的文献。分类标引同时还是许多文献单位用来进行文献组织的依据,直接关系到文献单位各项工作的开展。要使信息资源的分类保持一定质量,分类标引工作一般必须遵循以下要求:
(1)按照描述的资源对象,信息描述工作,亦即信息资源编目,可以分为文献编目、档案编目、博物馆藏品编目、网络资源编目等。一般均根据信息资源的特点和相应的描述规范进行处理。
(2)按照描述操作的设备条件,信息资源编目可以分为手工编目、机读编目、联机编目等类型。手工编目直接由人工进行描述款目的制作,用于编制卡片式目录或书本式检索工具;机读编目以计算机为工具,通过输入编目数据,在程序控制下输出书目产品,生成机读目录和各种手工检索工具;联机编目则可以在联机状态下进行信息资源编目和提供编目数据,建立联机检索工具并提供各种产品。
(3)按照其处理的方式,可以分为原始编目和复制编目两种。
原始编目:是指直接根据信息资源的特征所进行的编目。
复制编目:是指利用其他单位已经完成的编目数据进行编目。各种文献单位的元数据创建基本上是上述两种方法的结合使用。由于复制编目可以利用已经有的描述成果,不仅能避免重复劳动,节省精力和时间,而且可以保证描述的质量。
集中编目:是由一中心编目机构进行编目,向其他机构提供编目数据的编目方法。集中编目一般采用建立全国集中编目中心、地区集中编目中心等形式。其集中编目数据的提供通常包括发行目录卡片、机读目录数据等方式。在国外,美国国会图书馆、英国不列颠图书馆均为集中编目中心。我国早在20世纪50年代,就由北京图书馆、中国科学院图书馆、人民大学图书馆等单位联合组成中、西、俄三种语言文献的编目组,向全国发行印刷目录卡片,并一度实现中文图书随书配卡销售。70年代后北京图书馆承担起中文图书集中编目工作,向全国发行铅印卡片;其后,上海图书馆承担全国连续出版物集中编目工作,此外一些机构又开展随书配卡的业务。这一系列活动对文献单位提高编目质量,减少重复劳动等方面发挥了巨大的作用。集中编目的的形式之一是在版编目。在版编目指通过在文献出版过程中进行编目,据得以与文献一起提供,便于文献机构使用。在版编目工作一般由出版机构和办作完成。美国国会图书馆自20世纪70年代开始进行在版编目,依据出版商懂数据编目,编目数据由出版商印在书名页背面。我国的一些文献单位自20世起开始对在版编目进行试验,1990年颁布图书在版编目数据;图书书名页两项并于其后逐步开始推广在版编目的工作。目前,我国出版的部分书籍已经包括改据。在版编目数据的问题是,这一编目数据是根据出版社提供的基本数据编接按文献本身进行编目有一定差距,但可以作为文献编目的参考依据。
编目
国外如美国国会图书馆,在1950年后采用共享编目的方式,吸收其他主题领域图书馆的编目记录,同时也向合作馆提供其编目数据。我国如北京高校系统的北京图文联信息咨询公司,就是采用这种分担编目任务、共享编目成果的形式运作的,其初期的编目工作由北京大学图书馆、清华大学、图书馆、北京师范大学图书馆等单位共同承担。此外,我国的上海、江苏、广东等地也有类似的编目形式。
信息资源编目的最新进展是大规模的信息资源描述网络——书目机构
(bibliographicutility)的出现。这些机构将联机环境、网络环境与信息描述的形式结合,同时结合采用集中编目和协作编目的方式,为使用文献单位提供书目资源和服务。国外建立的这类系统中,影响比较大的有:
OCLC(OnlineComputerLibraryCenter),该机构原为美国俄亥俄州图书馆中心,后来发展为全美国和国外进行书目服务的机构;
RLIN(Research LibrarylnformationNetwork),该网络开始于1967年,是一个为美国研究图书馆服务的系统;
UTI.AS(UniversityOfToronto LibraryAutomationSystem),该系统最早为多伦多大学图书馆的自动化系统,目前已扩大成兼为其他图书馆服务的系统。
上述系统中,以OCLC的影响最大。该系统不仅进行图书馆文献的编目操作,同时也进行网络信息资源组织。《都柏林核心集》的编制就是在该机构的参与下发展起来的。我国发展的类似系统中,比较有代表性的则是我国高等学校系统建立的中国高等教育文献保障体系(简称CAIAS)。该系统的管理中心设置在北京大学图书馆,为我国高等学校信息资源的联机编目网络。目前已经开发了联机合作编目系统,可以进行联机环下的资源编目和管理,实现信息资源的共享。
三、信息描述工作程序
为了保证信息资源的描述质量,信息资源的描述工作一般应遵循一定的工作程序。信息描述的操作程序通常为:查重一描述一标引一复核并输入系统。
1、查重
在对一信息资源进行描述前,首先需要通过系统进行查核,确定该信息资源是否已经收入系统。查核一般通过对文献单位的工作目录或编目数据库进行,使用题名、责任者名或标准书号、统一书号等进行查找;在网络信息资源处理时,也往往通过URI查找。通过查重,可以确定该信息资源是否为已收入系统的信息资源、该信息资源的不同版本或经过更新的资源,并采用相应的方法加以处理。如该资源为已经收入系统的信息资源,
2.描述
描述操作通常应根据描述规范,根据不同信息资源的特点进行处理。图书馆等文献单位对所收藏的信息资源的描述,比较严格,一般遵循相应的著录标准和标引工具进行;在描述过程中,一般可以适当参考文献中的在版编目数据,并根据文献信息源提供的数据进行著录;为了保证描述处理的规范,对人名、题名、机构名等数据的著录,一般应按照规范文档进行,必要时还应参考相应的工具书,加以查核。
在电子环境下,对一信息资源的描述还可以采用复制相似的信息资源的元数据,通过修改、调整等方式进行描述操作,以减少工作量,提高描述的一致性。比较而言,图书馆等传统文献单位对所收藏的信息资源的描述,一般比较重视对相应的著录标准或规范的使用;网络资源的描述,则因单位不同而异,但从DC在有关描述项目下推荐的数据规范可以看出,即使从网络信息资源组织发展的角度看,规范化仍然是信
息资源描述的发展方向。
3、标引
标引在此处主要指分类标引、主题标引等。标引操作一般需要在对信息资源进行主题分析的基础上,依据一定的类表、词表或标引规范进行。通常需要对主题分析、类表或词表的结构特点、使用方法、标引规则等有基本的了解。标引操作的结果是给出符合信息资源内容特征的分类标识和主题标识。文献单位对图书等的标引操作一般需要供组织文献分类排架使用,在赋予分类号的同时,还应根据文献分类收藏的需要,给予书次号,组成分类索书号。有关分类标引、主题标引的程序和方法详见本书的有关章节。在实际操作中,描述操作和标引可以同时进行,也可以根据信息资源处理单位的需要,采用流水作业的方式,分别进行。
4.复核
在完成描述和标引以后,一般应进行复核,检查所进行的描述和标引是否符合要求,并根据系统的要求对文献等进行必要的处理,再将描述结果输入检索系统。复核,包括检查描述项目是否完备,准确;分类标引、主题标引的结果是否符合系统的要求等。复核工作一般应由有经验的工作人员进行。在复核的同时,传统文献单位一般还根据建立手工检索工具和文献收藏的需要,进行标目加工,编制参照等。为了便于进行复核,保证标引质量,有的系统往往建立临时库,收入未经过审核的标引结果,只有经过专人审核的数据才可以输入检索系统,以保证系统的质量。
第一节 信息描述工作概述(2)
四,联机编目与CORC系统
元数据的创建涉及信息描述、标引、复核和处理等过程,是一项工作环节比较多、连续性强、需要同时使用多种辅助工具的操作。传统编目环境往往不能较好满足编目工作的各种要求,给操作人员带来不便。随着计算机在编目工作中的使用,编目集成系统的出现以及与联机环境、特别是网络环境的结合,极大方便了元数据的创建工作。下面,试以OCLC的协作联机资源编目系统(cooperative online resource catalog,简称CORC系统)为例,介绍联机环境下的元数据创建的操作过程。
1.CORC系统的功能
CORC系统是OCLC建立的一个以网络资源为对象的联机资源编目平台。该系统由编目工作界面、编目数据库等组成,是将自动网络编目工具与图书馆协作编目结合的编目系统。自1999年1月开始,有24个国家的图书馆参加了该系统的研究,并于2000年7月开始正式投入使用。该系统具有以下特点:
① 编目工作界面功能完备、形式简明、友好,能同时提供DC、MARC方式的编目界面,可以通过编目工作界面方便地对网络资源进行各种与描述有关的操作;
② 有一个由协作编目建立的网络资源数据库,该数据库目前约有20多万编日记i进行编目资源的查询及作为信息描述的参考,
③ 可以自动获取网络资源已有的元数据信息,只要输入有关该资源的URL或各关数据,系统就可以自动获取网络资源的基本信息,在编目界面显示,供进行各要的处理; .
④ 通过系统,可以与DDC、国会标题表、人名规范文档等建立联系,并利用上述工
行规范标引,
⑤ 处理结果可以方便地实现不同格式如MARC格式式等之间的转换、显示、输出、应用。CORC系统操作界面如图4—l所示。HTML语言方式、XML语
用CURC系统进行元数据的创建,可以有以下三种方式:
① 对已有的记录修改完善。如果信息描述的资源对象在CORC系统的编目数据库中已经收入相应的元数据记录,但不够完善,可以对已有的数据进行修改、加工,并向系统提交经过修改的记录。
② 克隆(clone)相关记录,进行修改。所谓克隆,是指在系统中未收入相应信息资源,但已收人相关资源的情况下,可在已创建的相关资源元数据的基础上,根据资源的特征,保留相关资源描述记录中符合该资源的数据,调整、修改不适用的数据。
③ 创建新元数据记录。在系统未收入相应或相关元数据记录的情况下,根据元数据描述的要求,在元数据描述界面上创建新的描述记录。上述数据处理方法中,前两种方法不仅可以节省时间,而且有利于描述结果的一致范,提高描述的质量。因此,只要符合前两类的情况,一般应优先采用。己数据创建的工作流程
CORC系统具有多种功能,如进行信息资源检索,元数据的下载等,元数据的创建是其主要功能之一。此处只概要介绍元数据创建的有关情况。利用CORC系统进行元数据的创建,首先应通过系统进行查重。即在对信息资源进行描述前,首先利用CORC系统的联机编目数据库进行查找,确定系统中是否已经收有该信息资源或相关信息资源的描述数据。如系统已收有该信息资源的描述数据,可根据情况进行补充或直接确认;如系统收有相关的信息资源的描述数据,则可根据情况加以克隆和修改,或作为该信息资源描述的参考;在该信息资源为新资源时,则应根据其特点进行描述。最后将处理结果提交系统。使用该系统创建一信息资源的元数据的操作步骤如下:
① 在资源目录(resourcecatalog)的创建(create)下,选择单个记录(singlerecord),系统即会出现在联机数据库中进行已有编目数据查找的输入界面。图4—2即为该系统中对已有编目数据进行查找的界面。
② 在编目查找界面下输入拟编目的信息资源的数据,可以是URl。地址或题名、创作者名、标准书号、关键词、分类号等,即可以检出有关该提问的已有记录。一般应尽可能输入专指程度比较高的、能够个别化的标识,如URI·、标准书号等。如果系统未为该对象编目,则会直接显示相应的创建记录的界面。例,在输入北京大学网站地址后,在系统的目录中共查出两条与该地址有关的记录 。
③ 可以利用界面显示的记录察看已有记录的情况,确定已有的记录是否符合要求。如记录符合要求,即可直接使用原有的记录。如记录不够完备,可在上部的“Action"选择框中选择“Editmasterrecord”,即出现包括原有数据的编辑界面(见图4—4),可根据需要进行补充或修改;如系统收入的为相关信息资源的描述数据,则可在“Action"选择框中选择“克隆(clone)”,即出现包括原有数据的编辑界面,可
作为该信息资源描述的参考;用作克隆的记录也可以在资源目录下通过题名、关键词等检索找出。
④ 即使已有相应、相关记录,如认为仍需要重新生成,则可在上述选择框中点击“continue with
record creation”,系统即提供元数据创建的界面,供对该网站进行描述时使用。
未编目的新网站的数据,在查重后通常会直接出现元数据创建界面。界面中一般包括自动收录到的该资源标头中创建者输入的基本数据,可供参考使用。
⑤ 信息描述时,系统可以同时提供描述对象的界面,供描述时查核、参考,必要时还可以访问DDC、LCSH、名称规范文档等,以进行规范标引。
⑥ 为确保描述结果的准确性,可将未完成的描述记录保留在临时文件库中,以供进一步修改、完善。操作时打开“Action"列表,点击“Save Record'’,即可完成描述记录的临时保存。
⑦ 完成编目描述后,将记录输入资料编目库,供系统审核。操作时点击"AddRecord+Holdings",审核由专人进行,如符合要求,即将其收入系统,同时加上OCLC的控制号及有关的控制号码;如发现错误,通常在修改后再予提交。
这样,通过一体化的集成界面,就可以根据信息资源的不同情况,通过相应的操作,完成对信息资源的描述。使用CORC系统,还可以为不同层次的网络资源、非网络资源等创建元数据。该系统也可以通过对描述结果的转换,实现与相关系统的资源共享。
第二节 信息描述方法 (1)
信息资源的描述本质上是分析信息资源的特征,并按照一定的描述规范加以记录的过程。因此,关键是应能掌握各项信息资源特征的分析和记录方法。下面按照基本的信息资源描述特征,概要介绍传统的文献著录规范和《都柏林核心集》对各基本描述项目的有关规定,以便对各类信息资源描述特征的处理方法有基本的了解。为便于了解和使用,对《都柏林核心集》的项目标识符,本书不使用英文形式,一律按该项目符的中文形式表示。例如,题名的标识符,不使用Title,而是直接使用“题名”。
—、题名的描述方法
题名是信息资源重要的形式特征,可以在一定程度上表示信息资源的性质和内容,是查找信息资源的一个重要途径。各种描述规则都首先列出题名项。在传统的文献著录规则中,题名包括:正题名、并列题名、副题名及说明题名的文字等多种形式,文献著录规则对每种题名类型的描述均有明确的规定。正题名是文献的主要名称,包括单纯题名、交替题名、合订题名等。单纯题名由一个单一的题名构成,前后没有任何附加的文字,一般可直接加以著录,
订题名又称为合辑题名、集合题名,指由两或多个篇名并列印刷在书名页上。著录时分三种情况:如合订题名由两个题名构成,为同一作者所作,则连续著录两个篇名,其间以“;”隔开。例:荒野的呼唤;~t/(1)杰克·伦敦。
如两个题名分别为两个作者所作,则先著录第一个题名和责任者,再著录第二个题名和责任者,中间以“.”隔开。如合订题名由三或多个篇名构成,则在本项只著录第一个题名和责任者,其余在附注项著录。例:
百川书志/(明)高儒著·古今书刻/(明)周宏祖著
并列题名,又称为平行题名、对照题名、指见于书名页的,与正题名语种不同的题名。如:《吾国与吾民MyCountryandMyPeople))。其中未被选择为正题名的语言的题名即并列题名记录在正题名之后,以“=”连接。著录为日·前后的文字,如属说明题名文字,也应以“:”为标识,著录于题名之后。广告文字不能著录。
《都柏林核心集》中,题名指创建者或出版者赋予信息资源的名称。如该描述的资源日,则记录该题名。如出现两个或多个题名,应选择最适合的、完整表达信息主要题名,其余题名记录在选择题名子字段中。如信息资源提供多语种题该资源采用的语言的题名为主要题名,同时在选择题名子字段中记录其他语如信息资源创建者或出版者确定的题名不正确或有错误,则应提供正确题名。如信息资源只有一般化的、不适合著录的题名或没有提供题名,则著录者应提供一概括的描述性的题名作为主要题名,并在其后的注释字段中注明“该题名为著录者提供”,同时将其他题名作为选择题名。
在依据《都柏林核心集》描述时,题名著录也可以将第一题名与所有其他题名著录在同一题名字段,用等号隔开。例:题名北京大学=Peking University=BeijlngUniversity
二、责任者项
责任者说明由责任者和责任方式组成。责任者指对信息资源的生产负有责任的个人或团体,是区别信息资源的一个重要特征。将责任者结合题名进行查找,可以实现检索的个别化。此外,责任者也是判断文献内容与学术水平的一种标志。信息资源的责任者通常分为个人责任者、集体责任者两种·。个人责任者可以是一人或多人,集体责任者则指机构团体、会议活动等。责任方式表示责任者对文献所作的贡献类型。传统文献通常有著、编、改编、执笔、口述、译、注、点校、作词、作曲、绘等多种形式。
在传统的文献著录规则中,责任者描述一般保留书名页或其他信息源中名称记载原貌,清代以前的著作者应记录朝代,外国责任者要记录国别。在外国责任者姓名构成不同或称呼习惯不同时,对原责任者名称颠倒或必要处理,同时著录原文。例:(唐)李白;(英)狄更斯(Dichens,Charles)。
单一责任者按照原文著录;合著者为两人时照录,第二责任者前用“,’’标识;合著者为三人以上时只著录第一人。在一文献有多个责任者或责任方式时,可以按责任方式不同,区分出第一责任者和其他责任者。一般情况下,排列在前者为第一责任者,其余为其他责任者。第一责任者后用“;”标识区分。一般情况下,翻译作品以原著者为第一责任者;注释作品以原著者为第一责任者;个人著作由他人汇编时,原著者为第一责任者;一文献既有主编又有编辑者时,只著录主编;法律法规以制订者为第一责任者;音乐作品以词作者为第一责任者等等。
《都柏林核心集》中,对有关信息资源责任者的数据,设有创建者和其他责任者以及权限管理等著录项目。创建者项下分设会议、机构、个人等子字段,著录时,可在相应字段著录相应的名称。涉及多个机构或人名时,可以重复著录。著录时,将每个人名作为一个独立的元素记录,姓名可按传统文献编目规定的次序进行,也可按原文顺序加以记录。
创建者.机构 北京大学图书馆
创建者.个人 李平
创建者.个人 Albert.K.Boekhorst
其他责任者为仅次于创建者的个人或其他的责任者,如编者、译者、插图者等,是对现有信息资源内容作出贡献的实体。一般应在符合条件时才予著录。其他责任者下也分设会议、机构、个人等子字段。对创建者或其他责任者在无法区分时,通常可作为其他责任者处理。权限管理项著录可以直接著录有关该资源对权限的陈述;也可以记录有该信息资源权限说明的URL,供用户查找。例如对权限无限制的信息资源,可以直接著录为:权限管理无限制.
三、版本项、出版发行项
版本项对鉴别版本差别、判断版本质量具有重要意义,出版发行项主要用以说明文献的出版情况,两者是从出版的角度对信息资源进行著录和判断的特征。传统的文献著录规则按版本、出版发行两项分别进行记录。版本项由版本、版刻与版本有关的责任者组成,主要提供文献版本的有关信息。其中,版本指文献排版的次数,不同版本说明文献的修订更新情况。版次基本上指原有版本的重新印行,一著作版次多表示它价值高。读者一般重视当前版本,特别在知识发展较快
的领域。一般情况下,第一版的版本不予著录。版刻指制版形式,如刻本、抄本、铜版、影印本等。影印本一般应在附注项注明被影印版本。与本版有关的责任者指新版的责任参加者,包括新版的修订者,增补者、审订者、作序者等。例:
中国书史简编/刘国均.一2版(增订本)/郑如斯修订
出版发行项包括出版地或发行地、出版者或发行者、出版日期或发行日期、印刷地、印刷者、印刷日期,主要用以说明文献的出版情况。
出版地指出版者所在地,通常为出版者所在的城市名称。例:北京:清华大学出版社。
出版者为将文献整理印刷、公布于世的个人或机构。现代出版者一般有自己的出版范围和出版特色,是判断文献质量和专业方向的一个因素。
出版发行日期指该文献出版发行的时间,重版书通常著录最新版本时间。版本时间表明著作包含信息的时间,对了解文献内容状况有一定价值。特别是发展迅速的领域,尤其重要。在文献无明确版本日期时,可记录印刷日期,在两者都缺乏时,可以估计一个日期,并加以说明。
某些类型文献中,如幻灯片、电影、多媒体资源等,很难区分出版者、发行者、生产者,一般可在描述时同时包括发行地、发行者等。
《都柏林核心集》中,与本项相关的项目分别为日期和出版者两项。日期项为记录信息资源创建有关的日期的描述项目,目前设置有详细的子项目,包括创建日期、有效日期、可获得日期、发表日期、修改日期等。其中,创建日期指该信息资源或作品原创建或完成的日期;发表日期为得到公开承认的合法版权或正式发布的日期。如一著作或文件的完成时间为创建日期;其出版或公布的日期则为发表日期。有效日期、可获得日期一般为一定的时间段。为了统一日期的著录,该规范要求最好采用IS08601的方式(http://WWW.m3.org/TR/NOTE-datetime),以数字按YYYY-MM-DD的次序
记录,如一信息资源于1999年7月8日创建,2000年1月15日正式发布,应著录为:
创建日期1999-07-08
发表日期2000-01—15
出版者项指负责使该资源以现有形式出现的实体,例如出版社、大学或社会团体等。《都柏林核心集》中,设置有出版者名称、会议名称、机构名称、个人名称、出版地等对应子项,可以进行出版者项目的确切著录。网络资源著录中,如出版者的角色难以确定时,一般可将对信息资源发行比较重要的个人或单位著录于其他责任者项。如出版者为清华大学出版社则可著录为:
出版者.机构 清华大学出版社
出版者.出版地 北京
四、载体形态项、丛编项、附注项
载体形态项、丛编项、附注项等均为与文献的物质形态、编制形式以及进一步提供相关材料的项目,可以帮助进一步了解信息资源的状况。 载体形态项是一个记录文献物质形态特征的项目。包括:数量、图、尺寸或开本、附件等。其中,数量及单位是文献篇幅容量的记载,可以是页数、册数、盘数;图指对文献中图表的记载;尺寸,开本是对载体形式的记录;附件指与文献内容相关而又脱离文献主体的附加材料,如唱片、光盘等。此记录便于用户了解文献长度和构成形态。不同长度对同一主题讨论的充分程度是不同的,是选择文献的一个重要因素。
文献特殊细节项是为某些特殊类型文献特征的著录设置的项目。如:连续出版物的卷、期、起讫,地图比例尺、投影法等,主要用于记录个别重要文献特征。丛编项是记录所描述文献所属丛编的主要特征的项目,包括丛编名、丛编责任者及丛编编号等。
丛编是一个总题名下,汇集一组独立著作的文献形式。丛编说明可以提供文献类型、层次的有关信息。丛编文献通常有两个题名,一为总题名,一为分题名,丛编名通常为文献的总题名。丛编责任者指整套丛编文献的责任者。丛编编号指丛编文献所包含的每一种文献的顺序号,一般在丛编题名之后。在特定情况下,也可以是报告系列号、政府出版物系列号、标准系列号等,此类编号具有排列文献的作用。附注项是一个补充描述项目,作用是进一步提供文献的相关材料,帮助用户充分了解信息资源。内容包括:进一步阐明现有著录,如作者说明,发行范围,早期版本信息,音乐作品的演奏者等;进一步说明文献材料,包括与其他材料的关系等。附注项涉及内容比较多,记录的自由度较大,著录的文字一般应尽可能简明。
《都柏林核心集》中与本项有关的内容包括:语种、类型、格式、关联、覆盖范围等。语种。指资源本身采用的语言。OCLC核心集建议采用RFCl766的规定,使用IS0639的语言代码。例如使用英文的信息资源则表示为:语言en又例如中文信息资源表示为:语言chi
类型。包括:资源集合、结构化信息资源、事件信息、图像、交互资源、模式、机构、软件、录音、文本等。OCLC核心集建议参考(见//wwwsunsite.berkeley.edu/metadata/types.html)列举的类型,该网址将信息资源的基本类型分为6种,依次为文本、图像、声音、软件、数据、交互应用等。
例如文本信息资源可著录为:类型文本格式。表示资料采用的数据格式。《都柏林核心集》建议采用MIME(MultipurposeInternetMailExtension,多用途互联网邮件扩展)规定的格式。例如,北京大学图书馆的网络格式为:text/html
覆盖范围。指信息资源的内容涉及的空间和时间。空间范围按照信息资源内容对象的地理位置或空间名称记录;时间范围按照时间时段按规范的方法记录,但应注意,时间时段为信息资源描述内容的时间,而不同于创建或可获得的时间。例如;北京大学网站的的覆盖范围应为:
覆盖范围时间1888—
覆盖范围空间北京,中国
1.关 联 主要用于表达一信息资源与其他信息资源的联系。《都柏林核心集》中与关联项有关的子元素有六种类型:部分、全部关联。指一资源是另一资源的物理或逻辑的一部分,对应的关联形式为:下述资源的一部分(1sPart Of)和有组成成分(Has Part)。前者表示该被描述的资源》另一资源的一部分;后者表示该描述的信息资源所具有的组成部分。
2.版本关联 指一资源是另一资源的版本。包括:另一资源的版本(1s Ve,sion Of)禾有版本(HasVersion)两种标识。前者表示被描述的资源为另一信息资源的一个版本沾者表示被描述的资源具有的某一版本。格式转换关联。指通过复制或确定新的形式,使一资源成为另一形式的资源。包齐是资源的格式(1sFormatOf)和有格式(HasFormat)两种。前者表示被描述的信息资溺为另一信息资源的一种格式;后者表示被描述的资源具有的某一格式。
3.参照关联 指一资源的作者引用、讨论或提到的另一资源。包括被参(1sReferencedBy)和参考(References)两种标识。前者表示被描述的资源为另一资源巷考引用;后者表示被描述的资源参考引用了另一资源.
4.替代关联 指一资源是对另一资源的替代等。包括被取代(1s Replaced By)和代替(Replaces)两种标识。前者表示被描述的资源为另一信息资源所替代;后者表示被描述的资源代替了另一资源。
5.附属关联 指一资源需要另一资源来表达或产生作用。包括被需要(1s Require‘By)和需要(Requires)两种标识。前者表示被描述的资源无论在逻辑上还是在物质上均为另一信息资源所需要;后者表示被描述的资源要求另一资源支持其功能。
NOTES: 上述各项目的著录应根据定义确定是否描述为关联,并根据关系类型指明关联的性质。例如,北京大学图书馆网站为北京大学网站的一部分,可在图书馆网站下表示为:下述资源的部分北京大学网站又如北京大学网站有北京大学图书馆这一部分,可以在北京大学网站的描述中,表组成成分北京大学图书馆,但一资源与一来源对象之间的关系,不应记录在关联项中,而应记人来源项。来源。来源表示该信息资源来自另一信息资源,通过以一标记指向参考的信息资源,可指明来源的物质形式、出版日期、URL地址等。
五、文献标准编号及有关记载项
在传统的文献著录规则中,包括国际标准文献编号、中国标准文献编号、获得方式。国际标准文献编号、中国标准文献编号可以简单表示一文献,具有惟一性,有利于文献控制。获得方式为销售时,通常明确记录售价,一般按文献的价格记录。非卖晶在著录获得方式时,可直接著录为“非卖晶”、“赠阅”。价格等的记录是用户购买文献的重要信息。
《都柏林核心集》中,本项目包括国际标准书号、国际标准刊号、统一资源标识(URL)等子项。其中URL供网络资源描述使用。在CORC系统中,当一信息资源有多个URL寸,如能确定创建者和出版者提供即时信息的基本服务器的地址,则将该地址记录在第一声段,并在其后的字段中记录其他地址,并注明其为镜像站点;如不能确定基本服务器的占点,则可选择一速度较快的服务器为第一个地址,其他的URL为附加站点。对无效的JRI。地址,可仍保留在ID—URL字段中,注明已经失效。为了确保URL著录的准确,CORC系统推荐最好以剪贴方式提供。例如国际图联网站的URL可著录为:资源标识.URI。http://www.ifla.org
六、提要项
提要项是概括记录和评价文献内容的描述项目,我国国家标准中包括此描述项目。臣要项可以方便用户迅速了解文献的内容概况,帮助用户作出判断。在以论文为描述单己时,提要通常采用文摘的形式。在计算机检索系统中,提要或文摘是从语词出发查检信息资源的重要对象。
传统文献描述中,图书提要项的编写,一般应根据原文献的内容提要、前言、序言、目《等进行编写。提要应客观反映图书的内容要点、学术价值、使用对象等。在内容复杂,准以概括时,也可以记录其目次加以反映。提要的编写应简明扼要,通常将字数限制在0()字以内。
《都柏林核心集》中本描述项目前设置目次(TableOfContent)、摘要(Abstract)两个F项。可以在相应子项中记录信息资源的目次以及内容要点、服务对象等。例如,下面分心为摘自CORC系统的描述的样例:例一,北京大学图书馆的描述
Library homepage,brief introduction,electronic resources,OPAC,User Guide,News
brary,Inter-library Loan,FAQ,Navigations,Focus,User training program,CALLS,CAI
例二:美国路易斯安那州立图书馆系统的描述
Presents access tO an online information guide tO the library system Of Louisiana State University
LSU),located in Baton Rouge.Includes information about services“the University,s libraries,as
rell as information about LSU and Louisiana electronic publications.Posts a calendar Of upcoming
vents.Offers a site search engine fOr finding specific information.Links tO related Internet sites.
传统的文献著录规则设有检索排检项。该项目通过对检索点的揭示,供手工检索系统编制使用。传统文献单位卡片式目录中作为排检特征的项目,通常包括四个方面,依次是:文献题名、责任者名、主题词、分类号。前两个排检项从文献特征中选取,后两项特征则为对主题内容检索的两种基本途径的标识。都柏林核心集没有专门设置的检索排检项。从理论上说,所有《都柏林核心集》项目的数据都是可检的。其中,主题项收入从主题内容角度提供检索点的标识,包括主题词、分类号等。《都柏林核心集》对从主题内容角度检索的标识,鼓励采用受控词汇,以提高标引和检索的质量。目前推荐使用的规范词表,基本上为西方世界有影响的词表和分类法,包括《国会标题表》、《美国医学标题表》、《杜威十进分类法》、《美国国会图书馆图书分类法》、《国际十进分类法》等。显然,不同的国家和地区,可以根据自己的需要,采用适合使用需要的主题法和分类法。当然,《都柏林核心集》对受控标引的要求是没有约束力的,用户在主题标引时也可以根据自己的需要,直接采用自然语言中的语词进行。
除上述各项目外,特殊信息资源类型一般还可以通过设置或加强特定的描述项目加以著录。如:传统文献描述中地图信息资源按其特点设置了数学基础项,记录地图比例尺、地图投影特征等;非书资料设有数量规格项、系列项,记录其数量、实际播放时间、材质、长度或型号、制式、色别、转速、声响等。对网络信息资源中特定类型的信息资源的描述,可以采用研究用的专门描述规范,也可以根据需要在通用描述规范的基础上进行适当调整,使其适合专门类型信息资源描述的需要。
八、简短讨论
传统文献著录规则和《都柏林核心集》都是描述信息资源特征和内容的基本规范,上述各项的描述,可以提供一信息资源的完整的描述数据,是识别信息资源、分析比较信息资源的基本依据。传统的文献著录规则与《都柏林核心集》的相同之处是:两者都设置了完备的描述项目,可以比较完整地揭示一信息资源的基本特征;两者都对描述的等级、标识以及规范的使用作出相应的规定,可以准确、一致的方式进行描述;两者都具有比较强的扩充性、兼容性,可以充分满足各种信息资源描述的需要和不同系统之间转换的需要。比较而言,作为针对不同描述对象,在不同的技术环境下发展起来的描述规范,两种描述规范也存在着差别。传统文献描述规范主要是针对传统文献描述和识别的需要设置的,其特点是:描述项目设置充分,对传统资源特征的描述项目的设置详尽,虽然也可以进行网络资源的描述,但针对网络资源的描述项目相对比较概括;有明确的等级性、次第性,各描述项目有明确规定的次序和等级;对描述的表达也有严格要求,如对外国作者名.要求按规定按直序或倒序的方式著录,有最低必须描述项目的规定等;采用人工标识,适合专业文献单位使用,是一个以文献专业人员为处理主体的描述规范。 .
《都柏林核心集》的描述项目则是根据网络资源的特点和需要,按照资源内容描述、知识产权描述、外部属性描述三种基本类型设置的,项目的设立更加充分,与传统文献编目其不同表现在:
元素集的成分含义明确,易于理解,便于操作,同时具有机械操作和人工理用。
对所描述的数据的形式没有严格规定,例如,对外国人名,可以按作者原次又可以按文献单位要求的次序记录;对主题数据,可以采用推荐的词表进行也可以直接以自由词加以标引。
对描述的元素成分没有限制,所有的元素成分都是可选择的。
各个元素之间没有固定的次序,所有元素都是独立的,可以按照任何次序示。
所有的元素都是可以重复的,可以根据需要,对有关的数据进行记录,从而增强了充分描述信息资源的能力。
可扩展性。《都柏林核心集》为集合的扩充提供了充分可能。所有的元素成分都可以在现有的基础上根据需要进一步设置子项目,加以扩充。
兼容性。在各种元数据之间具有比较好的兼容性,可以在现有的框架下,对不同元数据集合之间进行转换。
《都柏林核心集》可结合网络资源的生产,由创建者在信息资源生产的过程中对元数据进行描述,也可以由网络信息组织者加以描述或补充。由于网络元数据是以结构化的方式记录在信息资源内或独立建立,并与其联系的,依据DC,就可以通过对元数据的发现和利用,作为网络资源搜索和处理的工具。虽然传统文献描述规范与《都柏林核心集》有上述不同,但作为信息资源描述的规范,两者是兼容的,在目前的描述框架下可以对各个数据集合进行兼容互换(见图4—5)。
第一节 分类法概述(1)
一、分类法的意义
信息资源的分类是一种从主题内容角度组织和揭示信息资源的一种方法,是分类方法在信息资源组织中的应用。因此,要了解信息资源分类,必须首先了解什么是分类。
所谓分类:是指依据事物的属性或特征加以区分和类聚,并将区分的结果按照一定的次序进行组织的活动。分类是人类思维的基本形式,是认识世界的基本方法。
一个完整的分类应包括两个方面:
其一,依据事物的属性区分或分组,把具有相同属性或特征的对象集中在一起,与不具有这些属性或特征的对象分开;
其二,按照区分出来的对象集合的关系排列次序,并在这些类中进一步按照其相同点和相异点进行区分和组织。例如,将经济部门按照其不同对象,分为农业、工业、交通运输、邮政电信、商业、金融、服务旅游等基本门类,并按照一定的顺序加以排列,同时还可以按其特点,对这些门类进一步加以区分。
所谓信息资源分类,是指根据信息资源内容属性和其他特征,将各种类型的资源分门别类地、系统地组织和揭示的方法。信息资源分类一般具有以下特征:
其一,按照信息资源内容特征的相互关系加以组织。信息资源分类是分类方法在信息组织中的应用,是按照信息内容特征之间的关系组织成系统的。通过区分和类聚,分类法可以将具有相同属性或特征的资源集中在一起,将具有不同特征或属性的资源区分开来,同时将各种门类的资源按照类目之间的关系加以组织,根据其远近亲疏,组织而成的一个具有等级性、次第性的系统。通过它,用户可以按照知识之间关系,对特定内容特征的资源进行查找,并可以依据类目之间的联系,扩大或缩小查找范围,由此及彼地进行相关资料的检索。 .
其二,一般是从一定的角度出发组织信息资源的。主题内容之间的联系是多方面的、多维的。分类法作为一种从内容角度揭示信息资源的方法,一般只能有选择地揭示其主要联系。为了适合用户从学科的角度查找文献的习惯,目前的学术性文献分类体系一般总是首先将知识领域划分成传统学科,如哲学、历史、艺术以及各门科学,然后再在其下进一步展开,建立起以学科、专业为中心的分类体系。有关一事物对象的信息资源,在这一分类体系中往往是分散的,例如,与“茶”有关的各方面的文献,如茶的种植、茶的焙制、茶的贸易等在学术性分类体系中是按照研究的学科角度分散在农业、轻工业、经济等有关门类的。为了适合普通用户的使用需要,通用性的分类体系往往也以事物对象为中心展开类目体系,例如,网络分类体系一般是按对象、问题集中揭示信息资源的。
其三,以一定标记符号作为排序工具。现代文献分类体系一般均以一定的标记系统表示类目的相对位置或相互关系。这一标记系统通常由有序的符号如数字或字母组成,其特点是简短、明了,排序性好,利用它作为排检依据,可以按照类目体系方便地对文献和检索工具进行系统组织和揭示,从而充分发挥分类法在文献信息组织中的作用。此外,分类标记的成分一般为数字或字母,通用性比较好,不受语言、国别的影响,可以超越国界使用.标记符号的不足是直观性差,必须结合类名加以使用,从而在一定程度上影响了分类法的使用效果。为方便用户使用,网络分类检索工具在检索界面中一般并不显示其标记符号。
其四,一般通过类目索引提供从字顺角度查找类目的途径。按照类目之间关系展开,优点是可以揭示类目之间关系,但也会给类目的查找带来问题。随着现代科学的发展不断深入,主题数量不断增加,主题关系日益复杂,给从主题关系角度查找类目增加了难度。类目索引的目的,是为了便利从语词字顺的方式查找类目。这种索引的查找对象,不是一般的信息单元,而是语词对应类目的分类号。这样通过从语词查找类号,可以弄清主题在分类体系中的位置,便于类目体系的使用。
信息资源分类具有多方面的作用,其中最主要用于信息资源组织和揭示,包括文献分类排架和编制分类检索工具两个方面。
文献分类排架的优点是,可将文献按照其内容之间的关系组织成一个有机系统。通过它,文献单位可以使用开架方式,供读者按照知识关系查找所需要的学科门类,并进行由此及彼的浏览,用户能直观、方便地使用文献。信息资源的组织可以有多种形式,如按文献形式、到馆先后、固定排架等,但这些方式由于无法揭示文献内容之间的联系,均不适宜供读者开架借阅,不方便用户直接使用。因此,各国的文献单位一般都将分类排架作为各类信息资源组织的基本形式。
分类检索工具包括分类目录、索引等,其形式不仅包括卡片式、书本式等手工方式,也可以用于机检系统,是一种按照内容之间关系系统揭示信息资源的检索工具。与分类排架相比,分类检索工具不受信息资源形式、具体文献单位收藏的限制,可以从多个角度对文献内容进行揭示:可以对一定领域的信息资源进行充分揭示。通过类目的系统展示,用户可以按照主题展开的等级层次,确定查找对象,并依据类目体系扩大或缩小查找范围,有针对性地检索,是读者查找文献,文献单位工作人员向用户推荐文献、解答读者参考咨询的必要工具。 ’
在分类排架和编制分类检索工具的基础上,信息资源管理机构一般还可以进行以下工作:根据分类统计的状况,有针对性地进行信息资源补充工作,促进信息资源建设;分析各门类信息资源的流通工作状况,改进流通业务;系统收集有关领域的文献资料、编制专题参考书目;作为编制主题检索词表或编制后控词表时词汇控制的工具,通过分类,判断各专业领域的词汇收集状况和水平,揭示词间关系,对词汇进行控制等。
此外,分类法还可以广泛用作建立网上的检索工具或组织的手段,包括,编制网络分类工具,系统组织各类信息资源;对网上数据库的相关文献进行整合,编制跨库检索工具;利用它作为媒介语言,用于不同检索工具之间等。
第一节 分类法概述(2)
二、分类法的类型
一般认为,信息资源分类就整体而言包括聚类和归类两个方面。所谓聚类,是指按照信息资源的特点和使用需要,通过区分和类集建立起类目体系的过程;所谓归类则是依据建立的分类体系组织信息资源活动,一般是根据信息资源的特点,将其分门别类地归人该系统的相应类目,通过这一操作对信息资源进行分类组织。其中,建立科学、合理的类目体系,编制适用的分类表是进行分类组织的重要条件。所谓分类表,亦称信息资源分类表,是根据类目之间关系组织起来的,并配有一定标记符号的类分信息资源的工具。分类表是分类法的具体体现,它与分类规则一起构成分类语言,是进行分类工作的依据和规范,十分关键。由于它的重要作用,人们习惯上也直接将它称为分类法。没有预先编制的分类法,要准确一致地对数量巨大的信息资源进行分类组织是不可想象的。信息资源分类法按照其编制方式,通常可以区分为等级列举式、分面组配式、列举组配式三种。
等级列举式分类法是一种将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法,亦称列举式分类法、枚举式分类法。这种分类法通常将类目体系组织成一个树状结构,按照划分的层次,逐级列出详尽的子目,并在以线性形式显示时,以缩格表示类目的等级关系。由于这种分类法通常是依据传统的知识分类体系编制的,人们习惯上也将其称为体系分类法。
例如
可以看出,等级列举式分类法的特点是:①从一定的角度出发有层次地揭示信息资源,类目展开比较系统;②分类结构显示直观,易于把握、便于使用;③标记简明,号码单纯,适于分类排架,也可以用于组织分类检索工具。列举式分类法的不足是:①揭示专门主题能力差,往往无法满足确切分类的需要,不能充分揭示现代文献中大量存在的细小专深主题;②类表具有一定的凝固性,不便于根据需要随时改变、调整检索途径,不能进行多角度检索;③无法根据现代科学的发展自动生成新类,难以与科学的发展保持同步;④大型列举类表一般类目详尽、篇幅较大,对类表管理的要求较高。
等级列举式分类法是一种传统的分类法类型,也是目前使用最普遍的分类法形式。比较著名的等级列举式分类法有:美国的《杜威十进分类法》(DeweyDecimal Classifica—tion,简称《杜威法》或DDC)、《美国国会图书馆图书分类法》(Library。fCongress Classi—{ication,简称《国会法》或LCC),我国的《中国图书馆图书分类法》(简称《中图法》)等。分面组配式分类法是一种为克服等级列举式分类法的不足,适应现代信息资源标引和检索的需要发展起来的分类法类型。这种分类法放弃详尽列举的做法,代之于以简单概念组成复合类目的方式。其基本思想是;任何复合主题,不管它多么复杂,都可以分解为相应的基本概念;同时,它们也可以通过相应基本概念的组合加以表达。根据这一特点,分类法编制时,不必详尽列举所有主题,只需要在类表中按照范畴列出各种基本概念,并分别配以相应号码;使用时,先分析标引对象的主题,根据主题分析的结果,通过相应概念类目的组配表达文献主题内容,以这些类目的标识的组合,表示该主题在分类体系中的次序。例如,在文学类中,可根据文学作品标引涉及的特征,分解成以下分面,按范畴设置基本概念,并配以相应标记,形式如下:
上表只是分面组配式类表的样例,可以看出,类表中没有具体的主题,只有按照范畴设置的基本概念。使用时,需要首先分析标引对象的内容特征,然后利用表中概念进行组配标引。假设文学大类的标记为I,在使用上表标引时,“中国现代军事题材小说”这一文献,可根据其涉及的主题因素标引为:IElD3C3B2。分面分类法的特点是:①标引专指,可以通过基本概念的组配,充分揭示信息资源中的复合主题;②标记表达性强,可以表达出主题成分所属的分面,便于根据不同需要,调整组配次序,进行多元检索,例如:可以将上述标记轮排,提供从不同角度检索;③对科学发展的适应性强,可以通过组配方式,表达新产生的复杂主题,有利于与科学的发展保持同步;④类表的篇幅较小,便于管理、修订等。分面类表的不足是:①分面类表的类目体系是隐含的,直观性不如等级列举式分类法;②检索工具中的类目是根据组配建立的,类目分布往往不够均衡;③标引难度较高,要求分类人员有较高的专业素养;④分面标记的成分一般比较复杂,号码冗长,不适宜用于组织文献排架,主要用于组织检索工具。
具有代表性的分面组配式分类法有印度图书馆学家阮冈纳赞创制的《冒号分类法》(ColonClassification,简称CC),英国分类法研究小组改编的《布立斯书目分类法(二版)》
(BlissBibliographicClassification,简称BC2)等。
列举组配式分类法则是上述两种编制方式的结合,是一种在详尽类表的基础上,广泛采用各种组配方式的分类法,亦称半分面分类法。这种分类法以列举式类表为基础,具有一定的直观性,同时广泛采用组配方法,基本上可以达到分面类表同等标引水平。但其列举式类表的管理修订工作,需要较大的工作量;类目之间的组配要求使用多种辅助符号,标记复杂、冗长,是其不足。著名的列举组配式分类法有欧洲各国使用的《国际十进分类法》(Universal DecimalClassification,简称UDC)、俄国的《图书馆书目分类法》等。按照类目体系展开的维度,分类法可以分为单维和多维两种类型。传统分类法根据文献资源组织的需要和检索工具的特点,一般采用单维的线性结构,使用交替和参照等形式作为揭示类目之间的横向联系的补充,这一体系适应在传统环境下建立分类收藏和手工检索工具的需要,但不能充分揭示类目之间的多种联系;网络分类法借助于超文本技术,可以改变传统分类法单线结构的局限,通过重复反映、动态揭示等方法,充分反映知识之间的各种联系,满足终端用户的不同需要,建立起不同于传统分类法的网状结构。目前网络上使用的Yahoo等主题指南虽然仍有许多可改进之处,但已经在这一方面做出了许多有益的探索。
此外,文献分类法还可以依据不同的标准,区分出不同的类型,如根据其涉及的学科领域的范围不同,分为综合性分类法、专业分类法;根据其适用的文献类型,分为图书分类法、期刊分类法、标准文献分类法、专利分类法、报纸分类法、资料分类法、网络资源分类法;根据类分文献的规模,分为大型分类法、中小型分类法等。
第二节 分类法结构剖析(1)
信息资源分类法
对于分类法的结构组成目前大致有两种划分方法:
一种按照分类法组成部分的功能,将分类法的组成分为类目体系、标记符号、说明与注释、类目索引四部分;
另一种按照分类法构成的形式,将其分为编制说明、主表、副表、类目索引。为了便于介绍,本书采用前一种分法。一般情况下,要了解类法,必须首先对这四个方面有一个概要的了解。
一、类目体系
类目体系是按照类目之间的关系组织而成的一览表.亦称类目表。类目体系是分类法的主体,是分类语言对词汇和词间关系进行控制的主要依据,一般是以知识分类为基础,按照信息资源分类的实际需要建立的。通常是在基本部类的基础上,由基本大类、简表、详表、复分表组成的。其中,基本大类、简表、详表构成类目表的主表;复分表,又称附表,是一种结合主表使用编制的辅助表。下面本书以等级列举式分类法为主要依据,同时适当结合分面组配式分类法的特点,对类目表的结构组成做一个概要的介绍。
(1) 基本部类
我国综合性文献分类法采用的基本部类,一般依据对知识领域整体关系的了解,将知识门类分为哲学、社会科学、自然科学三大部类;同时根据马列主义、毛泽东思想的指导作用和文献分类本身的需要,设置马列主义、毛泽东思想和综合性图书两大部类,构成五大部类。
外国文献分类法通常也均根据对学科领域及其关系的了解,确定相应的基本部类。如《杜威法》的基本大类,是在理性知识、想象知识、记忆知识三大部类的基础上层开的;《冒号分类法》各主题领域的类表,在自然科学、人文科学、社会科学的基础上层开;《布立斯书目分类法》则将其基本部类依次划分为哲学、科学、历史以及技术和艺术四大门类。
档案等其他文献类型则一般根据其处理对象的特点确定基本部类,如《中国档案分类法》的基本部类为政治、科学文化和经济。表5—1列出中国法等四部分类法的基本部类。
基本部类的划分涉及分类体系的整体展开方式,因而受到分类界的广泛关注,但一般不在分类表中单独列出,也并不是所有的分类法都明确建立基本部类。
(2)基本大类
传统的文献分类法一般均以学科为中心设置基本大类,构成从学科角度展开类目体系的方式。在大类设置的数量上,早期的文献分类法,如《杜威法》,由于当时学科发展状况的局限,基本大类只设置了十个类目,比较概略;其后编制的分类法逐步增加了大类数量,一般均以传统学科领域为基础,将基本大类保持在20个左右。如《国会法》21个、《布立斯书目分类法》22个、《中图法》22个、《科图法》25个等,各个基本大类的规模也比较均衡;《冒号分类法》的大类一度曾达到42个,但由于大类过多不利于用户对分类法的整体把握和标记分配,因此,第七版将其规定为26个大类。这一事实说明,基本大类的设置也不宜划分过细。与传统分类法不同,指南型网络分类工具的大类设置放弃了以学科为中心确定类目结构的传统,采用以主题为中心或主题与学科结合的设类方式,形成与传统分类法不同的直接性、通用性结合的展开基础。大类的数量则一般保持在14到20个之间。
大类序列的基本要求是应能较好反映各知识门类之间的联系。文献分类法一般均重视对各个门类关系的揭示。国外文献分类法一般根据从总到分的次序,将综合性大类置于首位,然后展开具体类目。早期的《杜威法》,未能合理揭示诸如文学、语言学等对大类之间的联系,受到广泛批评;其后的分类法,如《国会法》、《布立斯书目分类法》等,在大类设置上均注意了对类间关系的揭示。我国文献分类法大类的序列,则是在大部类的基础上,将马列主义、毛泽东思想设为第一个大类,同时在类目的序列中贯穿从总到分的原则,注意将相关类目集中设类。如《中图法》中,将自然科学部门的类目按照从简单到复杂、低级到高级的次序排列;在社会科学门类中,将政治、法律、军事等上层建筑的类目,语言、文学、艺术等内容密切联系的类目采用接近设类的办法显示
(见表5—2)。
与传统分类法不同,指南型网络分类体系多数未按照类目之间关系序列。英文网络分类体系多以字顺方式排列基本大类,我国的网络分类工具大都依检索频率等因素序列类目。这类方式便于类目的调整和增补,但不符合分类法相关揭示的基本要求。基本大类的设置和序列是整个分类法展开的起点,关系到整个分类体系的展开方式,目此许多文献分类学者对基本大类的设置十分重视,进行过许多研究。但也有人认为,基本大类只是类目体系的初步划分,对检索的影响不大,关键是大类下分类体系的展开是否合理,应将重点放在各专业领域类目体系的建立上。
(3)简表
简表的作用有两个:一是可以帮助用户迅速了解整个分类法的概况,以便通过它的引导,方便地在详表相应门类中查找相应的类目;二是可供概略分类使用,如直接作为中小型文献单位的标引依据,或供专业文献单位对非专业文献标引时使用。在此情况下,对已使用简表部分,不得再同时使用详表标引。《杜威法》的简表由其前三级类目组成,共1000个类目;《中图法》第四版的简表由前二级组成,共约近250个基本类目。
(4) 详表
使用时,一般应在弄清类目之间关系的基础上准确了解类目的含义,确切归类。在组配式分类法中,其详表则是由详细规定的组配规则和按范畴设置的基本概念表组成,可以依据标引规则,以组配方式标引信息资源的主题内容。
2.复分表
在主表展开时,不少类目的进一步区分往往需要采用相同的划分标准,并得到相同的子目。例如:各国政治、各国经济、各国军事、各国文化概况等,在按国家进一步区分时,均可分出相同的地区类目;又如,中国经济史、中国军事史、中国文化史、中国政治制度史等类目下,在按时代进一步区分时,均可区分出相同的时代子目……(见表5—3)。为了增强类表的细分程度,缩小类表的篇幅,分类法一般将这些共性子目抽出,单独编列成表,供有关类目进一步区分时共同使用。这种指将主表中按同一标准对类目划分产生的一系列相同子目抽出,单独编列,供主表有关类目共同使用的表,称为复分表,亦称副表、辅助表、共性区分表。复分表是分面组配的一种基本使用形式。利用复分表处理共性区分问题的作用是:
① 缩小类表的篇幅 通过使用复分表,可以使类表在较小篇幅的情况下,达到较大的细分程度。对于已经编制复分表的共性类目,在需要进一步揭示时,不必在类表中重复设置类目,只要规定使用复分表就可以了。
② 加强类表的伸缩性 可以根据实际使用的需要,通过在分类体系展开中增加或减少复分表的使用,调整细分程度,加强类表的灵活性。
③ 增强类表的规律性 采用统一方式编列共性子目、配置号码,有助于使类目体系的列举更加一致,增加类目的助记性。表5·3 共性子目举例通用复分表,又称共同区分表,是一种供整个文献分类法有关类目共同使用的表,通常在类表的前部或后部集中编列。综合性文献分类法中常用的通用复分表有:标准复分表、地区复分表、时代复分表等。其中,标准复分表国内亦称总论复分表,是一种通用主题和信息资源类型的复分表,通常收入适用于整个分类体系的通用性主题,
复分表作为在主表基础上采用的一种辅助区分手段,使用时一般应注意:①除有明确规定外,一般必须结合主表类目使用;②是否使用复分表,应根据复分表中的说明以及类目下的注释确定;③文献单位可以根据需要对复分表的使用加以调整,但一经确定,就应严格遵守,不得随意变动,以保持复分表使用的一致性。④由于复分表使用意味着新的分类成分的插入,一般还应注意标记配置方面的有关规定。
二、标记符号
分类法的类目体系是按照类目之间的关系确定的,但由于类目之间的关系类型多样,数量巨大,人们无法凭记忆来确定类目的相对位置,因此要使文献分类法成为一个实用工具,需要有一种符号系统来固定类目的相对位置,表示类目之间的相互关系。分类法的标记符号就是根据这一需要设置的。所谓标记符号,亦称分类号,是分类法中用于标识类目的代号。分类号具有固定类目次序,显示类目之间关系的作用,是分类法的重要组成部分。使用分类标记是现代分类法充分发挥效用的基本需要,通过以分类标记为中介,可以将分类体系有效地用于组织文献收藏和建立分类检索工具。
当然,分类标记也会给类目体系带来限制。这表现在,一是类目体系一旦配置号码,就要受到号码的约束,类号的变动要考虑到与已配置号码的关系;二是如果配置方法不当,类目体系的扩充或调整就有可能受到号码系统的限制,从而影响分类体系的发展。因此,分类号的配置应当根据分类体系的特点和需要进行,并应力求将分类号对类目体系的限制降到最低的限度。
1.分类号的要求
分类标记必须由具有固定次序、并为人们普遍熟悉掌握的符号系统组成。常见的这类符号系统主要有数字、字母等。分类标记通常由数字、字母及相应的辅助符号组成。在实际使用中,分类标记一般应当符合以下要求:
(1) 简明性 即要求号码简短明了、顺序性强、易读、易写、易记、易于排检、易于输入电子计算机,适合实际使用的需要。
(2)表达性 指标记不仅能表达类目的排列次序,而且能揭示类目的结构特点。结合类十卧 表的不同编制方式,类号的表达性大体有两类,其一,能表达类目体系的等级性,揭示类目的从属、并列关系;其二,能表达类目的分面结构,显示复合主题的组配成分。
(3) 容纳性 又称扩充性,指标记系统能根据发展的需要,随时为类目体系的各种增补变动配以恰当的号码。分类标记对容纳性的需要是由分类法的动态性决定的。
(4) 助记性 即帮助记忆的能力。目的是通过号码配置中的规律性,改进标记的易用性,改善检索效果。常用的方法如,对类表中同一含义的子目配置相同的号码。此外,在复分或组配中以一致的辅助符号进行关系揭示也可以增强助记性。
上述各种性质中,简明性、容纳性和表达性之间是存在冲突的。分类标记的设置,一般应在充分保证容纳性的情况下,根据分类体系的任务,处理好简明性与表达性的关系。
2.号码种类
号码种类是根据号码的组成成分,对标记进行区分的一种方式。按照号码组成成分,分类标记可以分为单纯号码、混合号码两种。由一种具有固定次序的符号系统组成的号码,称为单纯号码。由两种或两种以上具有固定次序的符号系统组成的号码,称为混合号码。单纯号码最常用的有数字和字母两种。数字号码顺序性强,易于排检,使用普遍,具有国际通用性,但基数较小,在使用表达性标记的情况下,当下位类目的划分超过10个时,通常需使用两位数字表示一次划分,从而使号码变长。字母标记基数大,对同样数量的类目进行标记时,可以使号码相对较为简短。在使用层累标记制的情况下,大多可以用一位字母表示一次划分,不足是字母标记的排检不如数字迅捷,使用也不如数字普遍。
1) 顺序标记制 按照类目在分类体系中的次序,配以顺序号码,号码只表示类目的次序,不显示类目的等级或其他关系,这种配号方式称为顺序标记制.顺序标记制可以根据类目数量均衡地分配号码,标记简短,容纳性强,适合组织文献排架,但不能揭示类目体系的结构,无法在机检系统中通过标记按等级显示机读文档。如美国《国会法》采用的就是顺序标记制。该分类表共有40多万个类目,但多数类目的标记仍保持在两位字母和四位数字以内,以便供文献排架使用。
2)层累标记制 按照类目划分等级配置相应位数号码,号码不仅可以反映类目次序,并可以根据标记的位数判断出类目的等级,通常一级类日用一位号码表示,二级类目用二级号码表示;同位类再顺序配以号码,这种标记方式,称为层累标记制。层累标记制的优点是,可以揭示类目的等级结构,使用它,能够在机检系统中通过标记逐级显示分类体系。其不足是,如类目划分等级较深,会造成号码过长;其次,如同位类数量较多,超过号码的基数,就无法严格按等级编号,如:数字标记一次划分超过10个时,就必须采用一定的扩号办法,如八分法、双位制等解决;此外,在配置顺序号码的两个同位类之间出现新类时,类号的扩充也会出现问题。为了增加号码配置时的容纳性,一些不用于排架的分类法往往以两位甚至更多位数的数字表示一次划分。我国的《中图法》基本采用层累标记制。
3) 顺序一层累标记制 是一种结合采用顺序制和层累制的标记方式。目的是,试图汲取两者优点,使标记能同时具有较强的简明性和容纳性,又能够保留一定的表达性。顺序一层累标记制的典型例子是《科图法》的标记系统,该标记的前两位数字采用顺序制,用于标示基本大类和二级、三级类目;两位数字后,用小圆点隔开,其后基本使用层累标记制。
4) 分面标记制 这种标记制度通常以特定的符号或组配方式表示各个主题因素所属的分面,使号码不仅能够揭示类目的次序和等级,而且能够显示类目的分面结构。常见的分面标记采用分段组合方式,即通过分面符号的使用,使其成为一种由若干具有独立性的节段组成的分段组合号码,可用来进行轮排或以组配方式检索。
这种标记的优点是其表达性及由此带来的可组配性,可以充分揭示文献主题,并进行轮排和组配检索。其不足是号码成分复杂,标记冗长,排序性差,很难适应文献排架的需要。
4.标记技术
为了使标记系统在具有表达性的同时保持容纳性和简明性,分类标记一般还采用以下各种标记技术:
(1)八分法
即在层累数字标记中,当同位类超过10个,不足18个时,前9位以0—8表示,在8后面用两位数字表示一次划分,用于解决同位类的号码配置问题。例:下述《中图法》类目的号码配置就使用了
(2)集团标记法
即在数字层累制标记中,当周位类超过18个时,用两位数字表示一次划分,以解决号码的扩充问题。
(3)借号法
在层累标记制中使用的一种灵活借用上位类或下位类的号码配置方法。通常在上一级号码较宽裕时,用上级号码标示下级类目,在下级类目超过10个但超过不多时,根据情况,借用9以外的下级号码进行扩充或借用其他同级标记,使号码配置更加灵活。
(4)预留空号法
指根据学科发展和类目设置的可能,在号码配置时,预先留下一些空号,供类目增补时使用。
晶体学
(5) 对应编号法
即按照类目设置的规律统一配置对应号码,使标记:具有规律性,一致性,方便用户使用。例如,按照类目设置规律,在《中图法》中,对于涉及地区的类目,凡中国,一般使用2,亚洲使用3、非洲用4,欧洲用5……等表示,以增强标记的助记性。
(6) 字母标记法
即在数字标记中,直接以类名的首字母为标记,标示下一级类目。这一标记方法一般只用来序列类表的最后一级类目。美国《国会法》中经常采用此法。通过以上各种标记技术的使用,使标记体系具有更大的适应性,可以根据类目体系发展和实际使用的需要,灵活地加以配置。
三、说明注释和索引
1.说明与注释
说明与注释是有关分类表体系结构及使用方法的说明性文字。分类法通过它说明类表的编制原则、类目体系的特点以及使用方法等。通常包括:编制说明、大类说明和类目注释三种形式。说明与注释是帮助用户了解和使用分类体系的不可缺少的组成部分,也是衡量分类体系质量的重要因素。
(1) 编制说明
编制说明亦称序论,是对分类体系整体情况的纲要性说明。内容包括该分类法所依据的编制原则、分类体系特点、号码制度以及基本使用方法等,有助于从整体上了解分类体系的特点。
(2) 大类说明
大类说明是对各个基本大类结构特点的纲要性说明。内容一般包括该基本大类的内容范围、类目体系或分面结构的特点以及该类的基本规则等。大类说明有助于用户充分了解各类的范围和展开结构、分类要点及与相关知识门类的关系等,是了解各类分类方法的重要依据。在使用有关类对信息资源分类前,一般应注意熟悉该大类的说明。
大类说明一般收于每个基本大类之前或集中收录于分类法的使用手册之中。
此外,《中图法》第4版还以突出的方式,通过注释对一些分类的特殊规定加以说明。
说明与注释有利于改进分类法的易用性和标引的一致性,提高分类标引的质量。
随着分类法的发展、各种分类技术的广泛应用,分类法说明与注释的重要性也在逐步增加,一些著名的文献分类法均以不同方式加强和改进对说明与注释的编制。如《中图法》除编有详细的类目注释外,另编有配套的使用说明。国外分类法中,《杜威法》的说明与注释十分详尽,从20版开始,将原单独编制的使用手册收入分类法,成为类表的有机组成部分,《国会法》、《冒号法》、《国际十进分类法》等也均编有配套出版的详细使用说明。
2.类目索引
分类表是按照类目之间的关系组织起来的一种系统组织和揭示的工具,使用时,通常
也要求按照类目之间关系,通过对类目关系的层层判断进行查找。由于分类体系涉及的知识门类多、范围广、类目关系复杂,对于一些小主题的查找,往往需要对有关门类知识关系有一定了解,同时需熟悉分类体系的设置特点,才能够找到。至于一些同时涉及几个门类的复合主题,即使熟悉类表的人,也需要经过辗转查找才能找到。例如“土壤污染物处理”这一主题,涉及农业科学、环境科学、卫生学三个门类,需要根据分类体系的具体设置情况才能判定其归属,给使用造成一定困难。类目索引是一种按主题字顺方式,从主题名称指向分类号或相应类目,帮助分类人员利用类目表的工具。这种索引将类目作为查找对象,通过将类目体系的系统排列转变成字顺排列,在每个类名及同义词后记录该类的分
如《中图法》的大类说明集中于《{中图法>使用说明》之中,《资料法》第二版则将大类
、说明列于每个大类之前。国外分类法中,《杜威法》从第20版开始,直接将标引手册收入分类法,成为分类法的一个构成部分。《冒号分类法》等分面分类法的各大类前,一般都有对该类分面结构的详细说明。类目注释类目注释是对类目的补充说明。主要是通过它说明类目含义、范围、与其他类的关系,以及具体的使用方法,对类目的使用进行规范控制,以保证分类的一致性。
(1) 直接索引
直接索引是一种直接通过类名或同义词查找对应类目的索引。通常是将分类表中类目名称,包括其同义词、注释中小主题名等按字顺排列,于每一索引条目后注上相应的分类号码,从而可以从类名出发查找对应的类号。在确定索引条目时,对类组、复合类名等需进行分解,对类目下包括的小主题名,应逐一列举,并在其后注明对应的分类号。我国《中国人民大学图书馆图书分类法》的索引就属于直接索引。
(2) 相关索引
相关索弓[是一种不仅可以从语词出发查找对应的类号,而且可以集中被类目体系分散了的一主题各方面类目的工具。相关索引为美国图书馆学家杜威首创,最先用于《杜威法》索引的编制,因可以揭示分类法中的相关材料而得名,受到文献分类界的重视。这种索引除采用直接索引的方法外,还采用倒置、按学科集中等形式,将一个主题各个方面的类目都集中在一起。下述《中图法》的索引条目就是按相关索引的要求编制的。
相关索引的编制比直接索引复杂,特别是其中字面不同的相关类目的集中,有较大度。优点是可以集中一主题在类目体系中被分散了的相关事项,用途比直接索引大。此外,随着上一世纪70年代以后,分类主题一体化类表的编制和使用,一些分类法通过与主题法结合,发展了标题索引、叙词索引、关键词索引等索引形式。
在索引编制手段上,还发展了利用联机目录中分类号与主题词的同现率作为编制依据,用以改进索引的编制。
类目索引是分类法的重要组成部分,但必须注意,它只是分类表的辅助工具,一般不能直接根据索引分类。必须在查核类表,明确该类在类目体系中的位置和关系,了解其确切含义的基础上才能依据它归类。 第三节 类目体系的建立 (1)
类目体系的建立可以有两种方式,一种是采用归纳的方法,从个别到一般,根据个体属性的相同点集合成类,并依照这一方式,逐步将小类聚合成大类,建立起类目体系;其二是采用划分的方法,从总到分,从一组概略的类目出发,通过逐级划分层层展开。不管是法,最终都能建立起一个依照层次、等级逐步展开的分类系统。在一些情况去也可以结合进行,例如在采用层层划分展开类目体系的同时,对部分类目采法设置。根据国内多数分类体系编制实践和用户使用习惯,为了便于说明,本系的建立,按照从总到分的方式予以讨论。
一、类目的划分
类目的划分,是指依据一定的属性或特征对类目的外延进行区分,生成一组子目目划分是类目体系建立的基本方法,是逻辑方法在信息资源组织中应用的重知,类是分类体系的基本构成单元。
对类目的划分是可以连续进行的,例如:在各高等教育下,可以进一步根据高等教育涉及的国家进行区分,得到中国高等教育、朝鲜高等教育、日本高等教育、美国高等教育、英国高等教育、法国高等教育、德国高等教育等一组类目;在各国高等教育下,还可以依据研究的对象,进一步区分出教育理论、教育方法、教育设备、教育的组织、教育管理、教育对象、课程教学、教育机构等。这样,通过层层划分,就可以建立起一个逐级展开的教育文献的分类体系。类目体系的建立,就是这样一个从基本类出发,按照区分对象的属性,层层划分、层层展开的过程。
在类目体系展开过程中,一般须遵守一定的逻辑划分规则:其一,每次划分只使用一个标准,一般不得同时采用两个或两个以上的标准,如:当教育文献在依据教育等级进行区分时,就不能同时使用涉及的国家或教育活动的具体内容为标准进行区分;其次,划分应该穷尽被区分类的外延,使划分后子类之和与母类的外延相等,使该分类领域下所有的内容对象有类可归;其三,划分后各子类应相互排斥,界限分明,类目之间不应存在相互交叉现象。实际上,只要严格贯彻第一条规则,划分出来的子类必然会相互排斥。
现代分类法,无论是哪一种类型的分类法,基本上都是依据信息资源主题内容的属性和其他特征,遵循逻辑分类规则建立的。目的是依据一定的知识结构建立起一个有层次的类目体系,使得每一种内容或特征的信息资源,都可以在这一分类系统中具有相应的位置,用户可以通过这一体系,查检所需要的信息资源。在目前已有的分类形式中,列举式方式的类目体系是通过类表直接显示的,较为直观;分面组配方式的分类体系则是隐含的,比较抽象。由于受等级和篇幅等的限制,等级列举式分类法对类目的划分一般依据主要特征展开,比较概括,对展开的维度有较强的选择性,为了减少类目展开的层次,有时一次同时采用两个或多个标准,类目设置比较均衡;分面组配式分类法对类目的划分则比较充分,往往是按照范畴,多角度、多层次地进行的,对逻辑划分规则执行得也比较彻底,但对类目的等级和分布无法如列举式类表那样有针对性地配置和调整。现代分类法的实践表明,如何在基本大类或特定学科、专业下按照使用需要,以一致、可以预见的方式展开类目体系,是建立实用、有效的分类体系的关键之一。这涉及分类标准的引用次序、类目的排列次序、横向关系的揭示、类名的确定等内容,下面分别予以讨论。
二、引用次序
前面已经提到过,引用次序,是指复合主题在标引和检索中,不同主题因素的组配次序。在不同的情况下,引用次序往往会表现为不同的形式。在列举式分类法中,引用次序是指分类体系展开过程中,类目划分标准使用的先后顺序;在分面组配式分类法中,引用次序则表现为复合主题中不同组面被引用的先后次序。例如,将“高等数学教学”这一主题按“高等教育一数学教学”的次序组配,是指分类体系把有关各级课程教学的文献按“各级教育一课程”的次序加以引用。
分类标准使用的先后次序规定类目体系的展开方式,规定复合主题如何集中,是分类系统建立的中心问题之一。在分类体系建立过程中,选择何种属性为分类标准以及按照何种次序加以引用,决定着类目体系展开方式,对分类体系的性能有直接影响。
在表5—4中,第一个分类体系按“体裁一国家一时代”的引用次序编列,大体上与《人民大学图书馆图书分类法》的使用的引用次序接近;第二个分类体系按照“国家一体裁一时代’’的引用次序展开,基本上与《中图法》采用的引用次序一致。可以看出,第一个分类体系按体裁一国家一时代的引用次序建立类目体系,可以按体裁集中各国的文学作品,但从国家、时代的角度也是相对分散的;第二个分类体系可以将一国各种体裁文学作品集中在一起,但从文学作品的体裁、时代的角度看则是相对分散的。由于引用次序的不同,类目体系的功能特点也是不同的。从文学的这两个分类体系展开的特点看,第一个分类体系按照体裁集中,便于从体裁角度查找文学作品,比较适合普通用户按照体裁使用资源,适合一般公共文献单位的实用需要。第二个分类体系,可以方便用来对一国各种体裁文学作品的选择,便于按照从国家出发对文学作品查找使用,比较接近于文学研究者的使用需要,和用户从国家的角度使用文献。可见,引用次序决定着类目体系以何种方式集中信资源以及提供什么样的检索途径问题,是与分类体系的性能和适用性密切联系的。关键应根据用户的检索需求,结合主题领域的特点,确定适用的引用次序。为了同时兼顾各种不同引用次序的特点,满足从不同角度查找的需要,目前国内的网络分类体系往往同时采用几种引用次序组织文学作品的分类体系。
由于引用次序在类目体系建立中的重要作用,这一问题受到国内外分类界的广泛重视。信息资源中可以作为分类依据的事物属性很多,内容属性有学科、事物对象、种类、方面、部分、材料、性质、操作、工具、设备等,其他特征有体裁、国别、时代、形式、用途等,关键是如何合理在这些属性和特征之间确定其相互关系。在分类法编制时为了合理选择划分的依据,世界分类界对引用次序进行过许多研究,提出了一系列通用的引用次序,比较著名的有阮冈纳赞的五个基本范畴,英国分类法研究小组维克利等学者提出的标准引用次序等。
阮冈纳赞按照具体性递减的次序,将引用次序确定为:本体(P)一物质(M)—一动力(E)一空间(S)一时间(T)。
维克利依据目的性原则和相互依存原则,对阮冈纳赞提出的5个范畴进行了有层次的分析和详尽划分,提出其引用次序为:产品一结构一成分一性质一材料一过程一空间一施动者或工具。
密尔斯在进行布立斯书目分类法分面改造的过程中,提出不同范畴的分面引用次序为:事物一种类一部分一成分一性质一过程一操作一施动者或工具。
但这些引用次序都是根据一般情况提出来的。从类表编制的实际需要看,关键是应结合各学科的具体情况和用户需要加以实施。从目前实际使用的情况看,在特定领域中,一般可按下述方式进行:
(1) 根据各主题领域的特点,按用户检索目的或主要对象确定主要标准或首要分面,将这一分面作为组织该学科文献的中心。
(2) 根据依存原则确定其余各种分面之间的引用次序。
(3) 对特殊主题领域,根据用户需要和该领域的特点,对引用次序进行确定。
NOTES: 一般情况下,文献排架以及检索工具需要遵循一个固定的引用次序,在这一次序中,各个复合主题都有其确定的位置。实践证明,在某些领域,不同用户对象对引用次序的要求是不同的,单一的引用次序无法满足不同用户的各种需要,总有其不足。如前面文学类的例子所示,按照国别一体裁一时代进行组织比较适合普通用户的用书习惯,按照国别一时代一体裁则较符合专业人员的使用需要;再如:对于法律文献,普通用户习惯于对一国的各种法律进行查检、使用;专业研究人员则较多地从法律部门的角度对法律文献进行研究。因此,文献分类法的引用次序一般应根据文献单位的特点,按照多数用户的要求,有针对性地建立;同时可使用其他方式如索引、主题法等对被分类体系分散的内容从不同角度加以弥补。在电子环境下,这一情况还可以结合超文本技术,以链接的方式通过重复反映同时采用多表显示的方法解决。
第三节 类目体系的建立 (2)
三、同位类排列
从同一个上位类区分出来的一组处于同等地位的子目,称为同位类。一组同位类,又称为一个类列。同位类如何排列的问题,决定着并列类目之间的排列次序,是类目体系保持逻辑性、系统性的一个重要方面。
为了使分类体系中同位类的排列具有规律性、系统性和实用性,分类法对同位类的爿F列一般均按照类目内容之间的关系和实用需要进行。对同位类系统排列的作用是:①可以揭示类目之间联系,方便相关类目的查找;②有助于结合类目的排列,明确类目的含义;③只要在系统排列中采用统一方式,就可以增加类目排列的一致性和可预见性。对于同位类的排列方法,国内外分类学者进行过不少探索,提出了一系列的排列模式。常用同位类序列方法包括:
(1) 按时间先后顺序序列。如:将历史类子目按先后次序排列为:上古史一古代史一中世纪史一近代史一现代史;
(2) 按事物进化顺序排 即按照事物本身发展的客观过程和先后程序序列。如按照自然进化顺序序列生物学类目:古生物学一微生物学一植物学一动物学一昆虫学一人类学;
(3) 按空间次序排 如,按地理次序序列各国政区,如中国一亚洲各国一非洲各国洲各国一澳洲各国一美洲各国。
(4) 按逻辑次序排 即按照从总到分、一般到个别、理论到应用的次序加以排列。如按照从总到分、从理论到个别序列工业经济:工业经济理论一工业部门经济理论一世界工业经济一中国工业经济一·各国工业经济;
(5) 按依存次序排列 即如一主题的存在有赖于另一主题的存在,则该主题排列在另一个主题之后。例如,按照各部门的依存次序关系排列工业技术门类的有关类目:矿业工程一石油、天然气工业一冶金工业一金属学与金属工艺一机械仪表工业。
(6) 按惯用的次序排 即按照科学、教育中普遍采用,为人们所熟悉掌握的次序排列。如按照惯用次序序列群众运动类目:工人运动一农民运动一青年运动一妇女运动;
(7) 按实用顺序排 即根据便利用户实际使用需要所确定的次序排列。如将各种语言排列为:汉语一我国少数民族语言一常用外国语一按语系区分的其他外国语言。
(8) 按照字顺次序排 通常在级别较深的子类排列中使用,多用于西方语文的类表。
为了加强类目排列的规律性、可预见性,对相关类目的排列,除采用上述常用序列方法外,分类体系一般均注意类目排列的一致性和对应性。例如,大型等级列举式分类法在对各国或各时代的类目进行列举时均尽可能与地区表、时代表的类目保持一致;对各种主题、文献类型的排列次序,注意与通用主题、文献类型复分表一致。此外,各门类中划分特]征相近的类目,在类目排列上也尽可能采用一致或接近的方式。
类目的排列涉及面广,情况多样,因此在类目设置和排列上很难以单一的方式要求,一般可以根据系统排列的常见模式,结合信息资源的具体情况和使用需要确定。
四、横向关系的揭示和处理
类目之间的联系不是单维的,而是多方面的。一个知识门类可以同时从属于两个或两个以上的科学部门,也可以同时与多个部门保持联系。前者如国家理论,它既从属于历史哲学,同时又是政治理论的基本组成部分;后者如中共党史,它既是中国共产党类下的重要组成部分,同时又与中国新民主主义时期历史存在着密切的联系。因此,要有效建立分类体系,除按照类目的主要关系对类目进行区分和排列外,还必须合理处理多维关系揭示的问题。传统分类法鉴于文献组织的任务,以及传统检索工具的特点,对这类问题,一般是在单线序列的基础上进行处理的,其基本做法包括:
(1) 设置交替类目 所谓交替类目,是指在为一个知识门类设置使用类目的同时,在相应门类下设置的具有同一关系的类目。这类类目一般用“[尸括起,注明“宜人XX”或“XX人XX”,本身不能用来分类,只起引向使用类目的作用。这一方法主要用于具有多种从属关系的类目,目的是为了充分揭示主题之间的联系,保持学科体系的完整性,同时又不至于分散同一内容的文献。交替类目与相应使用类目之间形成的关系,即为交替关系。
交替类目是传统分类体系处理多重从属关系与类目体系单线排列这一矛盾的主要方法。它的设置可以完整体现一事物的多方面联系,方便用户从不同角度查找该类目;同时也提供了选择使用的可能,使分类法具有一定的灵活性。
建立参照。即以类目参照的方式,用于指明类目之间除从属、并列、交替等方式以外的其他联系。类目参照一般用于内容上存在着密切联系,但在分类体系中被分散了的类目之间,通常采用互逆的方式在相关门类下注明。
类目参照可以揭示类目体系中分散了的联系,使得类目之间关系的揭示更加充分,是分类体系完备地揭示类目之间联系的一种重要措施。设置选择类目。即在主题内容存在着不同处理可能时,指明可供选择的不同处理办法,供选择使用。这类处理通常在涉及集中与分散的时候进行,一般在总论性类目下注明。例如,《中图法》规定,029应用数学下注明,具体的数学应用人有关各类,但如愿将各种应用数学集中时,可用组配编号法,在此类下与相应主题的号码组配编号。例:工程数学标引为029:TBll。设置选择类目有助于根据所有需要,以灵活的方式处理相关类目,增加类目处理的实用性,但这一方法不能揭示这类类目之间的横向联系。设置选择类表。即根据不同单位或用户的需要,为一领域信息资源的组织同时编制不同的类表,供选择使用。例如:《中图法》就同时为法律类编制了两个类表,一个表按国家一法律的应用次序组织各国法律,供一般图书馆使用;另一表则按法律一国家的次序建立类目体系,供专业文献单位选择使用。
这一处理方法类似设置选择类目,但比选择类目更加系统,有助于增加类表的灵活性,适用性。
规定类目的归属。即按照单线序列中类目设置需要,规定类目处理的规律。这是传统文献分类法处理一般横向联系最常用的方法。例如,分类法一般都规定,一种理论方法在一知识门类的使用,应归人该门类。这类方法有助于以统一的方法组织信息资源,但不熟悉分类体系的用户往往无法了解,也不能揭示相关门类的联系。
五、类名的确定
类名是分类体系中表达类目概念的名称,它规定类目的含义和范围,是分类语言中表示类目概念的词汇单元。分类法的类名通常由单词或词组构成,用以表达学科、专业、事物对象及其方面等。如“物理学”、“半导体”、“摄影技术”等词均可直接作为类名。此外,在等级列举式分类法中,还常常会出现由几个内容上存在着联系的学科或涉及事物的方面、操作等的短语组成的类目名称。如“高压与高温物理学”,“分子的性质及其测定’’等。
类名在分类体系中通常只起表达该类目含义的作用,但由于现代类表常常在类目体系的基础上,通过计算机处理直接编制类目索引或叙词表,因此对类名控制的要求正在变得越来越严格。
一般认为类名的选择具有以下要求:
(1) 科学 即类名应使用能准确反映其含义,被广泛接受的名词术语,语词严谨、明晰、完整,一般不再同时收入其同义词、近义词、俗称等。近年来,为便于通过计算机转换直接编制对应的叙词表或索引的需要,一些现代分类法往往同时有选择地收入一词的各种同义词等,但多数分类法对收人类表的语词数量仍有较严格的限制。
(2) 简明 即所使用的词汇应简短、明了,尽量使用精炼的术语,避免冗长、拖沓。在列举式分类法或按倒排方式编制的组配式类表中,通常略去子类或子分面的上位概念,只记录区别于上位类的子类的概念,其表述的含义必须结合其上位类的概念加以了解。
(3) 确切 即语词应能准确反映类目的内容含义,贴切揭示类目概念的内涵和外延使用类名无法确切揭示类目范围时,应通过类目注释加以补充说明。
(4) 通用 即使用的语词应符合用户使用的习惯,有较好的通用性。特别是在通用性的分类工具中,应以多数用户的使用需求为依据,使类名易于理解,不会给信息资源的查找造成困难。
从上面对类名的选择可以看出,由于分类语言中的类名并非标识,对词汇的选择以及词形控制的要求不如主题法严格。类目作为分类体系中的概念单元,其含义及关系是通过类目体系加以展示的,除了类名和必要的注释外,对分类体系中类目的含义及词间关系,主要是依靠类目体系的系统展示,通过类目的从属、并列、相关等方式来加以揭示页结合对类目之间关系的了解力n以把握。旧之间的关系及其形式然等级列举式分类法与分面组配式分类法类表的形式有所不同,但两者最后完成的分类体系就其实质而言是一致的,都是通过层层划分,按照等级、并列等方式建立的详尽的分类体系。
其分类体系在结构上有以下特点:
①、类目体系是按照类目之间的内在联系组织起来的,能够比较充分地显示一个学科或专业领域中知识门类及其关系的全貌,便于从一个学科或专业出发对信息资源进行浏览;
②、通过缩格、并列、交替、参照等多种方式显示类目之间的各种联系,包括,从属、并列、交替、相关关系等;
③、 以直线方式排列以满足文献组织和检索的使用需要。
下面本书着重对分类体系中类目之间各种基本关系的表现形式与特点作一概要从属关系 从属关系指类目体系中一个类与其直接区分出来的子类之间的关系。在这一关系中,被区分的类,称为上位类,亦称母类;区分出来的类,被称为下位类,又称为子类。如下例中,生物科学与普通生物学、细胞学、微生物学、植物学等之间即为从属关系。
在类目体系展开的过程中,上、下位类是相对的。例如,植物学是生物学的下位类;又是植物细胞学的上位类。通过连续划分形成的一系列具有从属关系的类目i称为类链或类系(chainsofclass)。如下例中,“生物科学一植物学一植物分类学千孢子植物一藻类”就属于一个类系。在等级列举式分类法中,类系的起点通常为基本大类。根据类系中类目划分的等级,人们习惯上将具有从属关系的各级类目分别称为一级类目、二级类目、三级类目等,等级列举式分类法大多采用缩格及大小字体等形式加以表示。同一类系中类目之间的关系均为从属关系。从属关系类目之间存在一种限定关系,上位类的属性或特征必然会存在于下位类之中或对下位类产生限定作用。因此,要准确了解一个下位类的含义,必须注意结合其上位类的属性。按照概念关系的性质,从属关系的类目包括属种、整部、方面等三种基本类型。属种关系主要用于对生物、事物及其概念的类型进行区分,特点是:上位类必然能包括下位类的外延;下位类必然具有上位类的属性。如表中植物学与植物演化与发展、植物细胞学、植物遗传学、植物形态学等类目之间的关系就是属种关系。方面关系通常用于一学科或主题与有关的各个内容方面、事物与其材料、性能等。
此外,类目体系还常通过使用类聚词,如设置“一般性问题”类,与有关下位类建立联系。
这样,通过对上述各方面关系的揭示,使得一主题领域的关系得以完整地层示。
(2)并列关系 并列关系指类目体系中同位类之间构成的关系。如前所述,所谓同位类,是指由同一个上位类区分出来的、处于同等地位的一组类目。如上例中,植物的演化与发展、植物细胞学、植物遗传学、植物形态学、植物生理学、植物病理学、植物生物化学、植物生物物理学均为同位类。同位类之间由于都带有上位类的属性或为上位类所限定,具有相互联系的一面。
同时,它们之间又各有自己的特有属性,因此又是相互排斥的。分类法使用时一般应根据同位类的种差,判定类目的含义和确切范围,正确归类。类目体系中处于同一等级的类目,称为同级类。同级类由于不一定属于同一上位类,类目之间往往并没有同位类所具有的那种联系,应加以区别。 同位类通常是依据一个单一的划分标准对上位类进行区分形成的,但在等级列举式分类法中,划分规则的执行并不彻底。有时为了减少类目划分层次,往往根据文献特点和使用需要,同时采用两个或多个划分标准对同一上位类进行区分,从而造成部分外延的交叉重合。
各类教育中的各种具体的教育形式也存在教育的等级问题,与前面的各级教育存在着交叉。对于这类情况,一般应根据各相关类下列类特点及有关说明,明确各类目的含义和范围,以便正确确定并列类目之间的区分界限,确切归类。交替关系 学科之间的关系存在着多维性。一些知识门类往往具有多重从属关系,同时隶属于两个或两个以上的学科。
(3) 相关关系 相关关系指类目之间除从属、并列、交替等方式以外的其他联系。事物之间的联系是多方面的,,文献分类体系的线性序列在揭示类目之间主要联系的同时,往往分散了其他一些联系。为了使类目体系中分散了的联系能得以反映,分类体系通常以类目参照的方式来加以揭示。类目参照一般用于内容上存在着密切联系,但在分类体系中被分散了的类目,通常采用互逆的方式在相关门类下注明。如前例中,植物生物物理学既是植物学的下位类,又与生物物理学具有密切联系,类表通过在类下设置类目参照的方法.对被分类体系分散的类目联系加以揭示。类目参照可以揭示类目体系中分散了的联系,使得类目之间关系的揭示更加充分,是分类体系完备地揭示类目之间联系的一种重要措施。上述四种类目关系类型中,从属关系、并列关系揭示类目体系展开的主要线索,反映了类目的纵向联系;交替类、类目参照则是对类目体系显示的主要关系的补充,揭示被类目体系所分散了的横向关系。通过两者的结合,文献分类法按照类目之间关系建立起纵横交叉的、严密而又实用的分类系统。
六、电子环境对分类法编制的影响
传统分类法基本是采用线性的形式,揭示类目之间联系的,这是文献组织的需要和传统环境的特点决定的。计算机的使用,特另,j是超文本技术的使用改变了这一状况。超文本技术的特点是,可以通过结点之间的链接,以非线性的方式,充分揭示和表达信息之间的联系。以超文本作为检索语言的编制手段,可以便利地表示分类法类目结构和各种关系,用来构造、显示、维护、发展检索语言。
将超文本技术应用于分类法的编制,通常是以类目或相关材料为结点,通过链接的方式,进行结点间的联结。使用这一方式,可以按照分类体系展开的等级和层次,系统地层示分类体系;也可以在此同时,按照知识之间的关系和使用需要,灵活地揭示类目之间 种联系。与传统分类体系展开形式相比,这一方式可以在类目关系显示、类目设置以及相关材料组织等方面具有更大的灵活性、动态性,为分类体系的编制和使用提供了新的可能。
从迄今电子词表、类表管理系统,特别是网络分类搜索引擎的应用实践看,超文本链接的应用,不仅为分类法的系统展开提供了交互式的友好界面,而且极大地改进了类目之间各种关系的揭示,逐步发展了一些不同于传统类目体系的组织和揭示形式。下面是一些比较典型的作法:
(1) 改进主题之间多维关系的揭示 这是超文本技术强项,也是传统分类体系中的一个薄弱环节。知识之间的联系是多方面的,一个主题或事物对象,可以同时从属于两个或多个知识门类,也可以是从属关系以外的其他联系,即相关关系。传统文献分类法由于其单线结构,通常只在确有必要时才以交替类目或类目参照加以反映,往往无法充分揭示主题之间的客观联系。采用超文本技术,则可以克服传统类表的不足,根据知识门类之间的联系和使用需要,对这类关系加以显示。目前网络分类体系中对多维关系的揭示比较充分,一般均通过链接的方式,在相应类下重复反映。
(2) 从多个角度组织信息资源 利用链接的特点,有意识地从不同的属性、角度设置类目,提供从多个维度揭示信息资源的方法。这一方法,虽然在显示形式上与多维关系的重复揭示相似,但不同于单纯的重复反映,而是有意识地增加揭示角度,同时提供多种检索的可能性。
(3) 进行轮排,亦即多表列类 传统分类法一般是根据特定用户群的需要,按照一定的引用次序编制的。引用次序规定着类目体系韵展开方式及其功能。采用超文本方式,可以根据需要,有选择地同时建立多个引用次序的类目体系,以满足不同的需要。
其中的一个引用次序如“国家一各类法律”组织类目体系的同时,再按照“各类法律一国家”的方式设置类目。使用链接的方法,将相关类目在后者类表类目系统下重复反映,同时以两种方式加以组织。类似做法如,网络分类体系中对文学类作品,同时选择按国家、题材、体裁、时代等为中心,通过引用次序的调整展开类目体系等,不仅可以提供不同的检索人口,而且具有建立不同功能的分类体系的作用。这类使用,是不采用超文本技术的情况下无法想象的。
(4)设置镜像类目 所谓镜像类目,是指采用镜像技术,以“拷贝”的方式设置的类目。 统分类法重类目体系的层次性、系统性,但灵活性不够,不能根据实用的需要,及时对类目进行必要调整。采用超文本链接,则可以根据使用需要,通过设置镜像 类目的方式,对某些重点类目或热点类目,加以突出反映,使分类法在保持系统性的同时,具有较强的灵活性和适用性。例如,一些网络分类体系往往根据使用需要,将经济类下的“公司企业”或综合类下的“机构团体”、“BBS与聊天室”等,以镜像方式,设为一级大类,方便用户使用。
(5) 动态组织分类体系 包括动态设置类目和动态揭示类间关系。前者如,在某体育赛事前,将有关类目提前设置;在某节假日前夕,将该节假日提前设类等,使分类体系具有较强的动态性、实用性,方便实际使用。镜像类是这类动态设类采用的基本形式。后者主要是,根据需要,动态调整对类目之间联系的揭示,使其能充分反映有关类目之间的关系和变化。
(6) 用于联结不同的检索系统 这类联结的系统包括:类目索引、标题表、叙词表、自然语言系统、轮排索引以及其他的分类体系等。
(7) 联结说明与规则系统 即通过链接,将分类体系和相应的说明文字联结,使两者之间密切结合,方便用户和标引人员使用。
当然,应该看到,超文本链接只是一种手段,本身是无方向的,并不能自己生成知识结构。因此,必须根据分类体系组织的特点和规律,在已有检索语言研究成果的基础上,结合超文本技术的特点,逐步了解和探索其规律性。包括,应从超文本结构的角度重新审视原有的关于知识组织的理论、方法。探讨各种新技术形式的使用特点和规律。探讨超文本环境下分类结构中整体的控制问题等。
超文本技术在分类法中的应用,目前仍只是开始。对于超文本技术在传统分类法中的应用规律以及因此带来的分类法结构的变化,还有待于进一步探讨。相信经过分类界和计算机界的实践和探索,对超文本环境下的分类法编制必将不断取得进步。
第一节 分类标引概述
一、分类标引的意义和要求
所谓分类标引,又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
分类标引工作是对信息资源进行分类组织的基础和前提,对文献开发利用具有重要的意义。通过对信息资源赋予分类标识,信息机构就可以将各种信息资源纳入相应知识门类,建立起相应的分类检索系统。这样,用户只要根据一定的信息资源特征,就可以按照系统提供的途径进行查找,从资源集合中检出需要的文献。分类标引同时还是许多文献单位用来进行文献组织的依据,直接关系到文献单位各项工作的开展。要使信息资源的分类保持一定质量,分类标引工作一般必须遵循以下要求:
要达到上述目标,就必须根据分类标引的特点,了解类目辨析和标记方法、遵守分类工作的程序和分类标引规则。
二、类目辨析
要将信息资源的主题归人分类体系中相应类目,首先必须掌握类目辨析的方法,准确了解类目的含义和范围。在分类法中,类目体系是按照类目之间的关系组织的,并采用多种手段揭示类目之间的各种联系。因此,要弄清类目的含义,除应了解一类目名称的含义和有关的说明文字外,还应善于根据类表的特点,从多个角度进行辨析。包括:
1.根据上、下位类关系了解类目的含义
上下位类关系是分类体系中基本的关系类型,它们是互为作用的。分类体系是通过层层划分建立起来的,在类目展开过程中,上位类对下位类的含义具有限定作用。为了使类名尽可能简短,分类法对下位类类名的确定往往省略其上位类的含义,只列出其子概念的意义。因此,在使用子类分类时应注意结合上位类的含义进行了解。
同样,网络分类体系中,一具体类目的含义也必须结合其上位类的含义加以了解。例如,在Yahoo中,“教育>高等教育”下的“期刊”类是指“高等教育期刊”。另一方面,下位类是对上位类范围的揭示。要了解一类目包括的范围,在该类具有下位类的情况下,可以通过对下位类的了解,明确类目的外延。如上例中,“1207各体文学评论和研究”的下位类反过来也可以说明该类包括的研究对象和范围。
2.根据同位类之间的关系了解类目的含义
信息资源分类体系中,同位类的设置通常是遵循逻辑划分规则进行的,一次只采用一个划分标准,同位类之间相互排斥,类目范围比较明确。但有时为了各种实际需要,也会在一次划分中同时采用两或多个不同的划分标准,使得部分同位类之间有可能出现相互交叉的情况。对这类情况,一般应根据同位类特点,对相关类的含义和范围加以限定,明确区分的界限。
按体裁区分的类目与按对象区分的类目之间包含的范围是相互交叉的。因此,在确定一类目的范围时,就必须明确与其相关类目之间的关系。例如:在确定“1 24中国小说”的范围时,一般就明确儿童文学、少数民族文学等类下小说类的关系。在文献单位的实际使用中,上述中国小说类下一般是排除儿童文学、少数民族文学等所包含的相应体裁的文学作品的。但网络分类体系中,从不同角度设置的同位类目有时是为了进行多维度揭示。例如,“搜狐”文学类下古代文学、小说、政治文学等都是各自独立的、完整的类目。对这些类目的使用不存在排除其他同位类包括范围的问题。但在此情况下,有时一个文学作品有可能需要同时分入几个类目。例:古代政治小说就需要同时归人上述3个类下的有关类目。
3.根据类目注释了解相关类目的含义和范围
文献主题内容之间的关系是错综复杂的。有时,一个主题内容同时与多个知识门类发生联系。对于此类情况,分类体系一般通过注释规定相关类目之间的区分界限。因此,应注意了解类目注释中有关的说明,准确把握类目的含义,确切归类。
此外,对于一些特殊处理方法,类表一般通过注释方式对类目的使用方法加以明确规定。例如:《中图法》“U448各种桥梁”类在采用多重列类的同时注明:“如遇多主题因素的桥梁文献,人前面编列的类。”这实质上也是对类目范围的一种限定。
4.应按照类目体系展开的规律了解类目的含义
分类法中类目的范围,是与类目体系展开的方式密切联系的。因此,要正确了解类目的含义和范围,除上述比较直接的因素外,还应该善于从类目展开的规律对类目的含义进行了解。
传统等级列举式分类法的类目体系是按照从总到分,从一般到专门的方式,层层展开的线性系统。因此,在采用这些分类法标引时,必须在掌握类目体系展开规律的基础上,了解类目的确切范围,把握不同层次相关类目之间的关系。以《中图法》为例,其类目体系是按学科为中心展开的,各种理论方法是按其研究的对象归人相应知识门类的。例如,在对管理学有关类目设置上,综合研究各领域管理的文献,集中归人社会科学总论的管理学类;全面研究经济类下以整个经济领域为对象的经济计划与管理的相应类目;研究各经济部门下管理的文献则根据研究对象的领域,归人各部门下相应门类。了解这一展开模式,就可以准确判断类目的含义及与相关类目之间的关系,确切归类。
《中图法》个别门类展开时,不完全按照这一模式处理。在此情况下,一般通过注释的方式加以说明,只有在这类情况下,才不按上述方式理解类目。下面为这类说明的例子:庸俗经济学等近代经济学派(特殊分类规定)所列各派代表人物的经济学综合性著作人此。经济学专论人有关各类。各类型图书馆网络分类法总体而言也是采用层层划分的方式展开的。但由于往往采用按主题集中的方式设置类目,并通过超文本链接的重复反映,因此,对相关内容的归属以及类目的范围的了解,必须结合该分类体系的展开方式进行。对类目含义了解涉及的因素还有许多,一般情况下,只要注意与类目展开结构和类目的相关联系结合,就可以准确进行类目的辨析。
三、号码配置方法
分类体系是通过分类标记固定类目的次序,表示类目的等级关系的。分类标记是信息资源进行分类组织的依据。因此,要掌握分类标引,必须在了解类目体系特点的同时,掌握号码配置这一基本技能。号码配置的方法是与所采用的分类体系以及标记的特点密切联系的。为了了解号码配置韵方法,下面以《中图法》为例,对传统分类法的号码配置方法作一概要介绍。
使用《中图法》作为分类工具,分类标引中的号码配置大致有两种情况,一种是,可以通过主表直接获得表达一信息资源的完整分类号码;另一种是,结合不同成分的号码进行组配标引。
通过主表直接获取一信息资源的分类号码比较简单,一般只要根据信息资源的内容及其特点,采用层层区分的方法,准确确定其在分类体系中的确切位置,就可得到相应的分类号码。如在对“地球上的湖泊与沼泽”这一主题进行标引时,可根据其所属的学科,在“P天文学、地球科学”下的“自然地理”中查找对应的类目,直接得到该主题的号码为:P941.78;又如,“日用小五金制品的制造”这一主题,可根据其学科属性,在TS轻工业下查找对应的类目,得到该主题的类号为TS914.2。结合组配手段进行号码配置,通常需要根据类表的规定,将表中代表不同成分的号码加以组合。在《中图法》中,组配标引包括以下三种类型:
其一,使用复分表复分。即在使用主表类目分类的同时,结合使用复分表的类目进行区分,通常按类表要求,将主表号码与复分表号码加以组配。例如,“浙江经济地理”标引时,可在主表类目F129.9中国经济地理后加上中国地区表浙江得号码55,标引为F129.955。
其二,仿分。即利用同类性质的子目进一步细分。一般在需仿分的类号之后加上仿分号码即可。例如,“法语词典”标引时,可在表示法语的号码“H32”后,加上从英语的号码“H31”后子目中表示词典的号码“6”,得到该主题的号码为H326.1
其三,类间组配。即按照分类法的要求,使用特定的辅助符号,将一个主类号与其他跟文献内容相关的主类号组合,表达文献内容。例如,“化学文摘”标引时,可通过组配符号“:”,将表示专题文摘的类号“Z89”,与表示化学组配类号“06”联结,标引为:Z89:06。
在使用《中图法》进行各种形式的号码组配时,一般应注意以下问题:
(1) 号码组配时,如复分表或仿分的号码与主表中号码的成分含义相重,应删除重号。例如,“阿富汗哲学”这一主题标引时,应在"B31/39亚洲各国哲学”类下依照世界地区表分。世界地区表中阿富汗的号码为372。其中号码3表示亚洲,7表示亚洲下的地区,其含义分别与B31/39中的3和l/9相重,删去重号后.,其号码应为B372。
(2) 在复分不止一次时,号码的组配次序应按分类表中注释指定的次序进行。一般情况下,在某类下注明使用复分表配号,该复分表的号码即应配于该主类号之后;在复分超过一次时,其余的复分号码应按注释指示的次序依次配号。如“美国现代侦探小说集”的配号次序依次为各国文学“1 3/7”、美国“712”,仿“09文学史文学思想史”下"095现代”分、再加上侦探小说的题材复分号“6”。其中,“1 3/7”中的“3/7”表示各国的号码范围,与712中的7南北美洲的含义相重,095中的09为文学史的号码,删去重号后,标引结果应为1 712.456。
关于复分、仿分中号码加“o”问题。《中图法》的标记符号是一个按照类目的关系和等级展开的符号系统。·为了避免在复分、仿分配号时出现与类目体系中已有号码相重或与原有排列原则不一致的现象,类表规定在复分、仿分中加“o”表示复分、仿分类目的插入。《中图法》规定的复分、仿分加“o”的情况如下:两个号码组合时,如前一个号码在类表中有下级号码,组配时应加“o”。
但如复分表中仅部分号码中带“0”,在此情况下,这些符号主要起与复分表中其他不带。的号码相区分的作用,仍存在加“o”问题。
如需仿分、复分的类目仍有下级号码,但该号码与仿分、复分的号码属于同位类关系或不影响类目体系排序时,配号时不加“o”。例如,“猪的饲养管理”这一主题标引时,分类体系中猪的号码为“S828'’,需仿"S821马”类下“4饲养管理”分。配号时,虽然S828下仍有“8品种”、“9各种用途猪”等两个下位类,因这些下位类与S821下的类目是按照同一区分标准划分出来的,互为同位类关系,因此,仿分的号码组合时不应加0,应为S828.4。历史大类中国历史下仿通史分或自然科学各类的具体类目仿一般性问题分时,均需力口“0”。例女口;中唐历史事件 标引为:K242.305化合物半导体的化学制取 标引为:TN304.205.2其中,自然科学各类仿一般性问题加-0*’,是为了与《资料法》的号码取得一致。因为在《资料法》中,《中图法》启然科学中的最后一级类目下仍存在着下位类,因此应按前述的规则加“0’’(见图表7—1,表中+号后的类号为《资料法》类目)。规定中国历史下仿通史分时一律加“o”,则是为了简化操作,减少配号的难度。
(3)当仿分类目涉及一段类目范围时,配号时应注意根据具体情况,对主类号进行必要的调整。但这类情况仅出现于个别情况。例如,“世界医界人物传记”标引时,世界各科人物传为K815,需仿K825/826分,其中,中国医学人物传的号码为K826.2,因此此书应标引为:K816.2。
(4)复分表、仿分及组配的使用,应按类表的注释进行。总论复分表可视需要使用到主表中的前三级类目下或只使用其一部分。但主表已设有专类或可使用专类复分表、仿分时,不得使用总论复分表分。
(5)对仿分或专类复分表的使用.类表通常有两种注释方式,其一,是在需仿分的具体类下注明,例如:在"F426中国工业经济部门”下注明仿F416世界工业部门经济分;其二,是在需仿分的一组类目前做总的注释。如"K20中国通史”下各代史仿通史分,各国史按“世界各国和地区历史复分表’’分,自然科学各类按仿该类的一般性问题分等,均采用此种注释方式。对后一类注释,易于忽略,使用时应予注意。
四、标引32作程序
分类标引,是获得分类元数据的基本手段,一般需要在主题分析的基础上进行,并需经过标识转换,是一种复杂的智力劳动。为了保证标引工作的质量,分类标引工作必须遵—定的操作程序。包括:查重…—主题分析一归类——给号一·复核(见图7—l…)。
1.查重
查重通常在进行信息资源描述操作时统一进行。主要查核该标引对象是否为已经处理过的信息资源。在进行协作编目的情况下,除了应查核该资源是否已经进行了信息描述,还应确定该资源是否已进行过分类标引和主题标引,以便根据情况分别处理。有的系统中有时需要同时使用几种分类法对信息资源分类,在此情况下,应针对性地对已有的标引结果进行查核。如该处理对象为已进行过标引的资源,可直接使用已有的分类号和主题词;如该对象为未进行过标引新资源,再根据标引要求进一步操作。
查重的目的是为了避免重复劳动,提高效率,同时也可以改善标引的一致性。传统文献单位的查重通常依据书名目录进行。在联机编目的情况下,则应通过联机目录工具进行查找,对已标引过的复本,一般可直接使用已有编目数据,并根据需要进行必要的处理。
2.主题分析
要标引文献的主题内容,必须对文献的内容特征进行分析,确定需要揭示的主题概念。主题分析通常应结合检索语言的特点,采用相应的概念分析方法,对具有标引价值的主题概念进行概括、提炼和选择。在采用传统的文献分类法进行分类标引的情况下,主题分析一般应弄清信息资源讨论的对象是什么,是一个主题对象,还是几个主题对象,它们是从哪个学科角度进行研究和讨论的,其他还有哪些有可能作为标引依据的特征。按照分类语言展开的特点,分析主题类型及其构成成分,对具有标引价值的主题概念与特征进行概括、提炼和选择。
主题分析应根据信息资源的特点进行。在主题分析的对象为传统文献的情况下,通常应依据文献的题名、前言、目次、文摘或内容简介、参考文献、编辑出版数据等,必要时也可浏览全文,切忌只凭文献名称进行主题分析。网络资源的主题分析一般还应注意阅读有关该资源的说明文字。
3.主题概念转换——归类
即将主题分析的结果归入分类体系中相应的门类。一般应以特定的分类表为工具,根据其特点进行。在使用传统文献类表的情况下,归类工作应依据文献内容对象讨论的学科角度,采用层层分析的方法,将其归人分类体系中的相应的类目。这一工作通常应在对类目结构及其关系有充分了解的基础上进行。其中,按照文献主要内容对象确定的类目,称为主要类目;按照次要内容对象确定的类目,称为附加类目,按照信息资源中部分内容进行的分类,称为分析类目。
在网络信息资源组织中,各种门户网站一般以各自编制的网络分类体系为依据。分类时,应根据类目体系展开的方式,将信息资源归人类目体系中对应的类目。在对一主题对象进行多维揭示的情况下,一般还应注意根据类目设置的特点,将资源在各相关类下加以重复反映。由于目前我国文献单位使用最广的分类表是《中图法》。为了便于对标引方法进行说明,本书下面对分类标引的介绍,主要仍依据《中图法》进行。
4.确定标识——给号
主题分析的结果在按照信息资源的内容特征归类以后,通常应根据确定的类目给予相应的分类号。配号要求标引者掌握标引技能,能根据分类法的标记特点进行操作。按照文献主要类目确定的号码,称为主要分类号,在文献单位中,主要分类号是用以组织文献排架的依据,同时也用于编制分类检索工具;按照文献的辅助类目和分析类目确定的号码,称为附加分类号和分析分类号,附加分类号和分析分类号不用于组织文献资源收藏,只用于编制检索工具。在号码配置过程中,如需要进行复分、仿分、组配时,还应注意按照号码组合的要求配号。
5.审核
在结束文献标引前,必须对每种文献的标引结果进行审核。包括:文献主题概念的提炼是否正确,是否符合分类标引的要求,是否符合检索系统的揭示需要;主题概念转换中,文献归入的类目是否与文献内容相对应,号码的配置是否准确;分类标识的转换是否符合分类标引规则,是否符合检索工具的要求等,通过审核,减少标引误差,保证文献标引质量。
在文献审核的基础上,文献单位的分类标引一般还应根据文献组织的需要,对同类书的排列进行处理,在同类书中进一步确定书次号。为保证审核质量,审核工作通常应由有经验和较高标引水平的标引人员担任。
第一节 分类标引概述(3)
五、关于分类法使用本的确定问题
所谓使用本,是指特定的文献标引机构直接作为分类依据的分类法文本。根据检索系统分类标引的需要,对选定的通用性文献分类法进行适当调整的过程,称为确定使用本。多数文献机构往往并不自己编制分类工具,而是选择通用的分类表作为工具。由于通用性的文献分类法是根据一般文献单位的标引需要编制的,在类目体系展开的详略程度、学科关系的处理等方面,与具体文献单位的使用需要并不完全一致,因此有必要根据具体文献单位或系统的信息资源状况、用户需求、设备条件等的需要加以调整。此外,通
用性文献分类法往往根据不同的使用需要,在有关的类目下对各种可能提供了选择处理方案,需要使用单位根据实际情况选择处理方案。此外,在分类法无法及时增补修订的情况下,特定文献单位有必要根据标引过程中主题领域出现的发展变化及时进行增补,使其适应主题发展的需要。
由于上述原因,具体文献单位通常需要根据本单位文献特点和用户需求,对选定的文献分类法进行适当调整,甚至进行较大变动,做好确定使用本的工作。使用本确定的范围通常包括:
(1) 确定详略程度
指根据标引机构的整体需要,在原有的基础上对类表使用的详略程度加以确定。主要是依据文献单位或检索系统所处理的信息资源的特点,规定哪些详分、哪些略分以及确定附表使用等。以专业文献机构为例,一般情况下,一馆的重点收藏应予详分,直接使用详表;一馆的非重点收藏,在文献数量较少的情况下,则可略分,如规定使用简表或前三级类目等。同时,根据使用需要,对类表中原有的复分表使用情况逐一审定,确定是否采用,使类表的详略程度适合分类标引的实际
需要。
(2) 局部扩充
即在原分类体系部分类目不够充分,无法满足标引机构分类需要的情况下,对局部类目扩充加细。专业文献单位或以特定信息资源为对象的标引机构往往需要根据标引和检索的特定需要,对相关部分的类目进行扩充,常见的方法包括:
① 将类目注释中列举的小主题配以号码,扩充为类目。例如,语言专业的文献单位可在需要时,将“H17汉语方言”中各种方言下的注释改为类目,配以相应的标记。例如原“H176客家语”下的注明:“包括广东东北部、广西南部、江西南部、福建西部一部分和湖南南部一小部分”。可以据此将该类扩充如下:
② 参考其他分类法相应门类的分类体系,加以移植。例如:在使用《中图法》的情况下,可参考《资料法》、《国际十进分类法》或国内外有关的专业分类表的细目,将相应专业部门的类目体系扩充加细。
③ 扩大复分表的使用范围。如:文化单位的资料部门在使用《中图法》的情况下,可于“G1世界各国文化事业概况”的"G119世界文化事业史”类下,加注“依世界时代表分”,在"G125中国对外文化交流”类后,注明“依世界地区表分”,使类目体系的划分更加充分。
④ 归纳增补。即根据使用需要,通过自己归纳,对细分类目进行增补。要进行这项工作,一般应对该专门领域资源情况及知识门类相互关系有基本了解,增补时,应根据该门类信息资源的数量和特点,确定具体细目。扩充的细目是原有分类体系的延续,应与原有分类体系保持一致。如:以网络资源为标引对象的BUBLE,在按DDC体系建立检索工具时,根据资源情况,于特定类下通过增加主题词加以标引。如:该系统在"020图书馆学情报学”类下,就同时列出“图书馆学情报学综合资源”、“图书馆学情报学新闻和讨论”、“英国图书馆学情报学系”,“世界图书馆学情报学系”等多个类目。
(3) 局部集中
可根据需要,对有关领域的类目进行局部调整和集中,使之适合用户的使用习惯。包括:
① 确定交替类目。将与有关领域的各种交替类目,调整为使用类目,并将原使用类目下设置的细目移至新的使用类目下,加以集中。例如:哲学领域的文献部门,可以根据本单位使用需要,将“B03历史唯物主义”类下的"B032.1生产力和生产关系”、“B033阶级、阶级斗争理论”、“B034革命理论”、“B035国家理论”等交替类目改为使用类目,将这些交替类目对应的原使用类目,改为交替类目,并将这些类目下的子目集中在B03下,使类目体系适合实际使用的要求。
② 确定选择类目。将专业领域中原有的选择类目改为使用类目,使得有关该专业的各方面信息资源能集中。例如:数学专业的文献单位可规定,将数学在各专业的应用在“029应用数学”下集中,并与相应专业的类号进行组配标引。
③ 按专题集中。即将一专业领域中某一主题或专题有关的各学科文献,按使用需要集中。传统分类法一般是按照学科为中心进行类目设置的,但有时也根据需要,对部分类目加以集中,如《中图法》在“S农业科学’类中将农业机械制、造、农作物、蒙禽蒙售的生理生化等类目从工业技术、生物科学中抽出,集中于农业科学类,就是根据实际使用需要,适当按专题集中的典型处理方法。但在确定使用本过程中,此类调整应尽量慎重。
在建立机检系统的情况下,以上各种调整,都可以采用超文本链接的方法,将有关类目进行相对集中的同时,在原有的门类下重复反映,保持相关门类的完整性。
(4) 增加新类
增加新类与逐步扩充不同,逐步扩充是由综合性类表与特定文献单位的特殊要求的差异造成的,只能由使用单位扩充,增加新类则是根据学科发展及时设置新出现的类目,是使分类法适应标引需要的基本方法。为使分类体系一致起见,新类的增补通常应由分类法的编委会统一确定。具体文献单位为满足及时分类的需要,对新学科文献,可采用靠类标引或在必要时适当增补新类的办法。在此情况下,一般应及时把自己的处理方式作为建议提交分类法编委会,供其参考。如编委会所作的增补与本馆不一致,一般应将本馆已作的增补及类分的文献进行调整,以便在整体上与分类法的发展保持同步。
(5) 调整说明与注释
在进行上述各种变动的同时,应当对有关的说明与注释进行相应调整和变动,同时,还应注意根据本单位的分类需要,对有关的分类规则和使用说明等做必要的调整、充实或细化,以便保证分类操作的一致,方便实际使用。分类法使用本的确定,一般应注意在类表原有的基础上进行,尽量减少变动幅度;对确实需要进行的变动,包括局部扩充或集中等,应符合分类体系展开的原则,尽可能与原有分类体系的技术方法保持一致。
六、关于分类法使用中的动态修订问题
现代科学技术的不断发展,信息资源的迅速增长,要求分类法不断修订和扩充,以适应实际使用的需要。确定所有本时对新类的调整,只是根据当时的情况确定的,不能够保证其适应实际发展的要求。要使分类法跟上发展的步伐,就必须在使用过程中进行动态修订。一般情况下,综合性的大型分类法的修订,有专门的人员负责实施。具体使用单位通常可以在分类过程牛及时注意修订的变化,在实践中加以应用。但对于一些自己编制的类表,或者是增长迅速的领域的分类体系,例如,网络搜索引擎的类目体系或类似的工具,二般必须依靠标引工作者根据信息资源增长的情况进行不断的修订和增补。要进行好这一工作,必须了解分类法修订的一些基本知识。包括:
1.类表修订范围
类表的修订和调整一般涉及下述内容:①类目调整。指对表中已设置标引类目位置的调整,包括对显示类目与标引类目之间关系的调整,例如,将一显示类目调整为标引类目等。②类目细分。指根据信息资源分类的需要,对原有类目进一步划分,设置下一级类目。③增补新类。即原有的类列不能适应资源标引需要情况下,根据资源情况增加新的类目。④删除旧类。即删除不适用或没有实际标引和检索意义的类目。⑤动态类目的设置和调整。指对表中以链接方式突出反映、重复反映的类目的调整。包括增设或删除等。⑥调整相关类目。对具有相关关系的揭示进行增补或删略。⑦调整类名和注释。对不能准确反映类目含义的类目名称或注释加以调整,使其能准确反映其内涵外更
2.修订类型
(1) 类目调整 类目调整由于涉及对已有分类体系改变,往往同时涉及对已经处理的‘息资源的重新处理,一般比较慎重。主要用于:①原有类目设置逻辑上不合更②不能客观反映类目之间联系;③不符合用户使用需要;④不利于信息资源的:一处理等。
(2) 类目增补与细分 在分类体系已经设置有相应类目的情况下,通常可将有关资源人该类。在没有对应类目的情况下,可先找到包括该类的相应门类,分人该门类的其他类。下述情况应对类目进行增补:①相应门类在没有对应类目,且该类下设置其他类时,应增设“其他”类。其他类中一内容对象的资源达到一定数量时,根据情况从中分出相应专门类目;②一类中标引的款目超过一定数量,通常在超100~150条,有可能不方便用户使用时,可考虑对该类目细分,设置子类。
(3) 动态类目的设置和调整 指对表中使用链接方式加以突出、重复反映的类目的动,包括删除或增设等。
下述情况通常需要对动态类目设置:①根据情况的变化和用户使用需要,有必要有关类目进行突出反映或重复揭示;②对多重关系未加以揭示;③对类目之间的价值的相关关系未加以必要的揭示;下述情况通常需要进行动态调整:①原设置的动态类目,已不符合检索需要;②重关系类目的设置出现错误;③建立的相关关系类目错误或无价值;
3.修订采用的方法和类目修订应注意的问题
修订方法一般包括:①在分类体系已经设置有相应类目的情况下,可先将有关资归人该类,在该类下资源数量超过一定的数值(如:80或100)时进行复分,设置子罗②先将没有设置专门类目的资源分人其他类,在资源数量增加到一定程度时,从中分相应专门类目;③根据系统任务的需要,在已经有的分类体系基础上,从新的维度出发统设置类目,完善分类体系,这类方法,类似在区分大学后,进一步补充专业院、系的分体系;④类表的动态扩充必须与原有分类体系一致,符合有关专业领域类目组织的规套⑤同时,如有必要,应对各相关类进行重复反映。⑥根据系统任务的需要,在已经有分类体系基础上,从新的维度出发系统设置类目,完善分类体系,这类方法,类似在区分学后,进一步补充专业院、系的分类体系。类目修订中应注意的问题,主要有:①类目的设置与调整,必须与原有分类体系致,符合有关专业领域类目组织的规范,②类目的设置应能反映该领域标引对象揭示规律和特点;类目的位置和排列,应符合有关专业领域类目排列的特点;③类名应通月科学;④新设置类目,应注意根据需要同时在相关类下重复反映;⑤对重复反映类目调整必须是属于多重重复关系的类目,不能无限扩大;⑥增补的相关关系的类目应是内容上有联系,对用户进行相关资料的检索确实有帮助的、必要的类目。
4.修订采用的程序
为了保证修订的质量,修订应采取一定的措施,包括:①对类表的调整和修订必须由类表管理小组或指定的适当人员负责实施。②类表管理小组或指定的人员根据类表使用需要,对类表进行日常修订和管理,包括类目增补、细分,日常维护。③标引人员如发现类表中的问题,调整或细分的需要,可提出要求或建议,经过类表管理小组审核后确定。④类表管理小组对修订的建议和要求,应在一个星期内作出答复。⑤对部分类表的较大规模修订,一组类目的调整,或分支部门的扩充等,应根据使用需要情况进行。⑥进行时应组织相应人力,并需要进行必要的研究。
要使分类标引准确、一致、充分、适用地揭示信息资源的主题,除了按照分类标引的要求弄清文献的内容特征,掌握分类表的使用方法外,还必须按照分类标引的特点和要求,制订详细的分类标引规则。
分类标引的规则一般是根据检索系统的需要,根据分类表的特点并结合信息资源的特点确定的。按照分类标引规则的特点和涉及的内容对象范围,分类标引规则一般可以分为基本标引规则、一般标引规则、特殊标引规则三类。其中,特殊标引规则是指只适用于各个知识门类的规则,是基本规则和一般规则在各基本大类的延伸,与各类的类目体系联系密切,比较具体,可参看有关的分类使用手册。本书将主要讨论前两类规则。为便于说明,本章的分类标引实例主要以《中图法》为工具。
一、基本分类标引规则
分类标引的基本规则是整个分类过程中始终必须遵循的规则。基本规则是从信息资源分类原则中引申出来,并结合分类标引的基本要求确定的,它包括以下内容:
(1) 信息资源的分类根据信息资源的性质,按照其各自的特点进行标引
科学性质的资源,一般应以其内容属性为主要依据,同时兼顾其他特征,如国别、时代、形式、类型等。传统文献分类体系是学科为中心建立的,在应用传统分类法类分文献时,一般应在分析文献讨论的主题对象的同时,考虑其内容的学科属性。如《华北地质构造》这一文献,应首先按学科归人“P54区域大地构造学”,然后再按地区,归人中国华北,其号码为:P548.22。网络分类体系往往同时按主题或学科为中心建立类目体系,在此情况下,各种主题或学科内容的网络资源,应注意根据类目的设置特点,确定其归属。文学、艺术形式的资源,通常应根据其特点,则按照其体裁、形式等标引。
(2) 信息资源的分类必须能体现分类法的逻辑性、等级性、次第性
即凡是能归入某一类的文献,必然带有其上位类的属性。这是分类体系中从属关系类目的性质决定的。
(3) 信息资源必须归人最切合其内容的类
即应依据资源的内容,将其分人分类体系中内涵外延最符合其内容、最确切的类目。这是分类法准确、专指地揭示信息资源主题内容的需要。要做到这一点,分类时就不仅应准确确定信息资源的学科归属,而且还应按照学科展开的层次,区分总论和专论、理论和具体应用的区别,将其归人最确切的类目。这就要求在了解类目体系展开的引用次序及排列次序的基础上,掌握复合主题集中和分散的规律。
(4) 类分的文献必须归人用途最大的类
文献分类是为使用服务的,必须根据使用的需要进行。类目体系中类目之间的联系是多方面的,不同文献单位由于其专业性质不同,用户的使用要求或习惯不同,对文献处理的要求也存在着差异,因此在分类时,不仅应了解文献的内容性质,而且还应结合文献单位的特点和用户的需求进行,将文献归人该文献单位最适用的类目。
在网络分类法中,当一个主题范畴可同时从属于多个知识门类时,往往根据其属性在一个主要的上位类下设类,同时通过链接方式在各相关门类下重复反映,此时,用来作为标引依据的类,必须是为该类在表中设置的非重复反映类目,以链接方式出现的重复反映类目不能作为标引依据。
不能单凭题名、篇名的意义归类。文献名可以在一定程度上反映文献的内容,但许多文献名特别是文艺、社会科学领域文献的题名,往往只有象征意义,并不能确切反映文献的内容。例如,奥斯特洛夫斯基的《钢铁是怎样炼成的》是一部小说,不能仅凭书名归人工业技术。
又如,格拉夫斯的《现在可以说了》介绍美国原子弹研制过程,但题名并不能反映出这一内容。可见,文献分类必须在了解全书内容的基础上归类。应注意标引的思想性。对于社会科学特定对象的信息资源,在必要时,应注意对其内容性质进行揭示。特别是在网络信息资源的组织中,由于网上资源缺乏控制,鱼龙混杂,应注意检索系统的导向性和提倡健康生活方式的职能。对黄色的、内容不健康或损害国家主权的站点,标引时如有发现,应予删除。
二、—般分类标引规则
分类标引的一般规则是从著作方式的角度提出来的,适用于各个知识门类的分类规则。信息资源分类的方法是与各种主题类型、写作出版方式等的特点相联系的。不同主题类型、写作方式、编辑出版形式等的资源,具有不同的标引要求和规律。下面本书根据国内目前分类标引的一般做法,对各种基本主题、资源类型的标引方法作一概要讨论。
1.单主题、多主题文献的分类标引
(1) 单主题信息资源是论述某一特定的事物对象的资源.
分类时,一般应根据该资源对事物、对象研究的学科角度,按照论述的内容范围进行标引。例如,《教育心理学》,应按其学科内容归入教育类下教育心理学的专类,标引为:G44。
(2)多主题信息资源是同时论述两个或两个以上的事物对象的资源,一般应按照所论述的主题对象及其关系,区别情况进行分类.
根据不同主题之间的关系,有以下几种情况:
并列关系主题的信息资源,即指一资源同时论述两个或两个以上各自独立的主题。可以分为同时论及两个主题和同时论及三个或三个以上主题两种情况,一般应区别情况进行处理。
同时涉及两个并列主题的信息资源,通常可按重点或在前主题归类,并同时为另一个主题作附加分类。
在标引的结果同时供文献组织的情况下,如两个并列主题同属于一个类列,具有共同
的直接上位类,也可以视情况归人其共同的上位类。
从属关系主题文献,指一文献同时论述一个大主题和一个小主题,其大主题的外延可以包含小主题。从属关系主题的文献,一般应按其大主题归类。但如该文献对大主题并未展开论述,其研究重点是小主题,则可标引小主题。
2.简单主题、方面主题和联结主题的分类标引
(1)简单主题信息资源,指只论述一基本主题对象的资源,一般应按照主题对象的学科性质归类。
(2)方面主题信息资源,指论述一主题一个或多个方面的资源,应根据信息资源论述的方面以及各个方面之间关系的不同情况归类。
论述一主题某一方面的信息资源,应根据该资源论述方面的学科角度归类。应注意,由于文献分类体系是按照学科之间的关系建立起来的,因此一个,主题对象各个方面的资源,不是按主题集中,而是根据其论述的学科角度分散在各有关学科的。
论述一主题两个或两个以上方面的信息资源,一般应根据不同方面之间的关系,确定其归属。如论述的不同方面属于分类法中同一类列,通常归人其共同上位类;如不属于同一类列,一般应根据信息资源的论述弄清其内容重点,再确定该资源的主要类目;必要时可适当进行附加分类。但从多个方面全面论述一主题对象的资源,仍应按其主题对象归类。
(3)联结关系主题信息资源,指该资源涉及两个或多个具有联结关系的主题对象,包括应用、比较、影响、因果等关系类型,通常应在分析其关系类型的基础上,按照各自的特点进行标引。
应用关系主题的信息资源,一般应按被应用到的主题归类。但综合阐述一理论方法在各方面应用的文献,仍应按该理论方法所在的学科归类。例如,《微型计算机在汽车检测中的应用》应按其应用归人汽车工程下的相应类目,标引为:U472.9;
比较关系主题的信息资源,一般按资源作者重点论述的内容归类。例如,《唯物论与唯心论》一书,重点阐述唯物论理论原理,普及唯物论的知识,应人唯物论,标引为:B02。
3.丛书、多卷书的分类标引
(1) 丛书的分类标引
丛书是将多种独立的著作汇集为一套,并冠有一个总书名的出版物类型。整套丛书通常或围绕一中心主题,或针对特定读者对象、或为某一特定目的或用途等编纂,但丛书中的每一种书都是各自独立的著作,内容上并无多大连贯性。对丛书的标引一般应与其著录方式一致,大体上有两种处理办法:其一,按集中方式处理,即首先按整套丛书的内容标引,然后再分别按每一种书作分析标引。其二,按分散方式处理,即首先按丛书中的各个单书的内容归类,最后再根据情况确定是否为丛书编制一综合分类款目。
一般情况下,对内容上有密切联系或有明确的读者对象,出版时按一次性刊行或虽非一次性刊行,但有明确的出版计划,并且连续刊行的丛书,特别是其中的科普性丛书适合采用集中方式处理。在按整套书标引时,除类表已设有相应的丛书专类外,均应在分类号中加上丛书复分号“-51”,按单书分析分类时则不必加丛书号。
对内容上没有密切联系,各单书专业性较强,或没有明确出版计划的丛书,宜分散处理,即按各单书内容归类,分类时不必加上丛书号,最后再根据收藏情况以及使用需要确定是否作综合标引,综合标引时仍应加丛书号。
(2) 多卷书的分类标引
多卷书是一种将一完整著作分为若干卷、册出版的文献类型。通常有一总书名,各卷、册自成一个单位,有的还有分书名,且全书内容连贯,构成一个整体。多卷书一般应按整套书归类,根据其出版特点,有以下两种标引方法:对各类按专题编辑,并有分卷书名的多卷书,一般应在对整套书进行综合标引的同时,以各卷为单位作分析标引。综合标引时应在分类号中加多卷书号“-51"。
三.词典、百科全书、年鉴、手册韵分类标引
词典、百科全书、年鉴、手册是汇集一定知识、资料,按一定方式编排,供查阅使用的参考工具书。按照其涉及的内容范围,可以分为综合性、专科性两种基本类型。此外,词典中还包括各种语文词典。一般应根据其内容范围、出版形式,结合文献组织进行标引。
(1)综合性词典、百科全书、年鉴、手册等,通常应集中归人综合性图书大类的有关门类。
(2)专科性词典、百科全书、年鉴、手册的标引基本上有两种分类方法。
其一是按内容分别归入有关的知识门类,同时采用相应的总论复分号对其形式加以揭示;其二是将其集中于“综合性图书”类的相应专科类目下,再使用组配方式对其学科内容加以揭示。这两种分类方法的采用通常应与文献单位对资源组织的排列一致。
专科性词典等是采用集中还是分散,取决于对文献的组织方式。一般情况下,在集中建立工具书典藏的文献单位,应采用集中处理方法;否则,采用分散处理方法。
(3)语文词典一般应根据其特点归入语言类的相应门类。
按照《中图法》的规定,一种语文的词典,按其语文归入该语文的词典、辞典类;两种外语对照的语文词典,归人在前的亦即被解释的语文,同时在后一种语文下作附加分类;汉语与少数民族语言或外语对照的词典,不管在先的是否汉语,均归入相应的少数民族语言或外语;三种以上语言对照的语言词典人语言文字类的"H061词典”类;但专科词典,不管它使用多少种语言,仍应归入有关学科门类或集中归人综合性图书类。
四.目录、索引的分类标引
目录、索引、文摘是提供文献查找线索,指导阅读的工具书。根据其揭示对象的范围和特点,录、索引包括综合性、专科性、专书或专题等数种类型?通常应结合文献组织需要加以标引。
(1) 综合性目录、文摘、索引通常应归人“综合性图书”大类的相应门类。
(2)专科性目录、文摘、索引可将其集中于“综合性图书”大类的相应类下,再按组配配号法揭示其学科;或根据本单位文献组织的特点,将其分散在有关各类,再在学科的分类号后加总论复分号“-7”。
(3)专书索引一般应随原书归人相应类目。
其中,对马列经典作家的著作及研究的书目、索引,《中图法》在马列大类设有专类,通常可归人相应专类。
五.关子对著作的研究、注释的标引
有关著作研究的文献,包括评论、研究、注释、翻译、改编等多种类型,一般应区分情况,加以处理:
(1) 科学著作的评论、研究、注释一般随原书归类,必要时,可使用专类复分表对著作方式加以区分。
(2) 马列经典作家著作的评论、研究,应按照分类体系的要求,归入有关评论、研究的专类。
(3)文学作品的评论、研究,应按研究对象的国别、体裁归入各体文学的评论和研究的有关类目。
(4)缩写、节选的文献,如内容性质未发生变化,一般仍按原书归类,但如内容性质有较大改变,则应重新归类;从一种体裁改写为另一种体裁的文艺作品,或将其他门类的作品改编为文艺作品,一般应按改写后的体裁归类。
六.特种文献的分类标引
(1)技术标准和专利文献的分类标引
技术标准是各国政府部门或商业团体等对工农业生产及工程建设质量规格等所做的技术规定。按其使用范围,技术标准一般可分为国际标准、专业标准、企业标准;我国现行的技术标准主要分为国家标准、部颁标准。专利文献,亦即专利说明书,是记录经专利机构批准,获得专利权的新技术、新方法、新工艺、新产品的文献形式,是了解各国科研水平的重要信息资源。对于技术标准、专利文献的分类处理,各文献单位采用的方法不尽相同。专门文献单位往往使用专门类表如《国际专利分类表》等作为分类工具,一般文献单位则通常按通用类表的有关规定进行处理。如《中图法》在工业技术类下设有“T—-65工业规程、技术标准”类,并在该类的注释中规定了两种处理办法:其一,采用分散处理的办法,该类下只收入综合性汇编,将各部门的专业规程和技术标准分散归人有关各类,以总论复分表号码加以揭示;其二,采用集中处理的办法,即将各种专业规程和技术标准集中归入该类,并按标准文献的类型进一步区分。
对专利文献,《中图法》分别在自然科学总论和工业技术设有C18、N18、T一18等专类。有关各学科的专利可各入其类,再以总论复分号一18复分。也可以在有关的专类下集中,以类似技术标准的处理办法处理。
根据资源类型和使用的特点,技术标准、专利文献较多的文献单位,可集中排架和组织目录,以便于管理。
(2) 技术报告、学位论文的分类标引
科技报告是关于一专题研究进展或科学技术成果的报告。学位论文是高等学校或科研单位申请学位时提供的论文。两者对科学研究都有较大的参考价值。对科技报告和学位论文,一般均单独设库收藏,编制目录。科技报告和学位论文的分类,与其他资源类型相同一般按内容性质进行归类。其中,学位论文的内容比较专指,如论文的数量较多,可直接使用《中国资料分类法》进行标引。例如:
《国外社会科学信息网络建设》(科技报告)标引为:C1
七.非书资料的分类标目
非书资料指非印刷型文献,可以分为声像资料和缩微资料两大类型。其中,声像资料,又称视听资料,是一种直接记录声音、图像的媒体形式,包括唱片、录音带、幻灯片、电影片、光盘、磁盘等多种形式。随着现代信息技术的发展,这类文献已越来越多地成为文献单位的收藏对象。非书资料作为一种与印刷型文献不同的媒介形式,在文献单位中通常按其形式与传统文献分库保管。一些专门馆往往采用固定排架方式,同时通过分类目录、主题目录等形式加以揭示。
非书资料与印刷型文献一样,都是知识的载体,按照主题内容进行查找是用户使用这类文献的主要方式。因此,对非书资料的分类仍应根据文献内容的学科属性加以标引,并依据总论复分表揭示其媒介形式。由于非书资料一般都必须借助一定的设备才能使用,不像印刷型文献那样,可以方便地浏览,分类时应注意了解其内容,确切归类。
八.网络信息资源的分类标引
与传统分类对象相比,网络资源的特点是,数量大、种类多、动态性强,内容分布特点不同。就信息资源的性质而言,不仅包括正式出版物,也包括大量灰色文献、个人信息;从信息资源种类而言,除包括已有的传统信息资源类型,还包括BBS、聊天室、新闻组、多媒体资源等多种形式,在内容分布上,新兴科学技术、商业、娱乐等的数量相对比较多。网络信息资源的分类,目前有两种方式,一种是采用传统分类体系的基础上,进行必要的增补,目前国外依据DDC、UDC、LC等建立的网络分类检索系统基本上属于这类情况。另一种是采用直接以网络资源为对象编制的分类体系,Yahoo、搜狐、蓝帆等网络分类检索系统属于此类情况。
各种网络信息资源的分类方法,基本上与传统信息资源处理的方法相同,一般应按分类体系的特点,将信息资源归入相对应的类目之下。但在采用传统分类体系作为工具的情况下,可以以原有类目为基础,根据资源情况,对类目进行少量调整。
第一节 主题法概述
一、主题法的意义
主题法是分类法以外另一种从内容角度标引和检索信息资源的方法。
主题一词,在不同的使用环境中可以有多种不同的解释。在本书中主要指信息资源论述的主题对象,包括事物、问题、现象等。经过选择,用来表达信息资源主题的语词,称为主题词。所谓主题法,一般是指就直接以表达主题内容的语词作检索标识、以字顺为主要检索途径、并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。目前国内外采用的主题法的类型很多,一般都具有下述特征:
其一,直接以语词作为检索标识。主题法不像分类法那样,以一种抽象的号码系统作检索标识,而是直接选用自然语言中的语词进行标引和检索。
其二,以字顺作为主要检索途径。虽然主题法往往也采用按范畴、词族等方式组织主题词,但字顺方式始终是它的主要排检依据。我国的主题检索系统通常是根据汉字特点,按照拼音或笔画笔顺进行排检的;因此在使用主题法检索时,只要知道检索对象的名称,就可以按相应的排检方式进行查找。在采用机检系统的情况中,一般可以直接输入语词,由计算机进行查找,不必如使用分类法那样,必须预先了解主题词之间关系,通用性好。
其三,以特定的事物、问题、现象,即主题为中心集中信息资源。分类法由于受学科体系的限制,从不同学科角度研究同一对象的信息资源是分散在各知识门类中的,主题法则没有这一限制,而是直接从主题对象的角度揭示图书资料,这一特性是由语词标识和字顺排列决定的。以论述茶的文献为例,在分类法中,关于茶的种植、茶的焙制、茶的贸易等主题,一般应按学科分别归入农业科学、工业技术、经济等不同科学部门,而在主题法中,通过语词标识和字顺排列,可以直接在“茶”这一主题下集中予以揭示。
其四,往往是通过详尽的参照系统等方式揭示主题词之间关系。按照字顺排列不能必然揭示主题概念之间的联系,为了克服这一局限,主题法发展了完备的参照系统,通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。同时,一些系统还备有词族索引、范畴索引、轮排索引等多种辅助索引,通过各种形式的结合,在主题词之间建立起充分的语义联系。当然各种主题系统中对词间关系的揭示状况是不平衡的,就整体而言,其对主题之间关系的揭示不如分类法。
主题法在信息资源组织中的作用,主要是用来处理信息资源、编制各种检索工具及检索系统。与分类法相比,主题法的特点是可以集中与一个主题有关的各个方面的信息资源,检索的直接性、通用性好,适合于进行各种专指检索,在性能上具有与分类法相互补充的特点。主题法通常不用于组织图书,只广泛用于组织各种检索工具,不仅可以利用它编制各类供手检使用的书目索引,同时也可以用来建立计算机检索系统,进行机检。从上面的分析可以看出,主题法虽然也是从主题内容着手进行揭示的,但它有着自身的规律和特点,是一种和分类法角度不同,方法各异的标引和检索的方法。
二、主题法的类型
主题法的类型可以有许多不同的分法,按照主题法的选词方式,可以分为标题法、元词法、叙词法、关键词法;按照其使用时组配的先后,可以分为先组式主题法和后组式主题法;按照其使用时是否进行控制,可以分为受控主题法与非控主题法。
1.标题法
作为一种在手工检索工具的基础上发展起来的,按照列举方式编制的主题法类型,标题法除了直接选取自然语言中的单词和词组作标识外,还大量采用复分标题,如:水果一病虫害,;音乐一奥地利;参考书一书目;倒置标题如:化学,有机;化学,无机等,通过这些形式,对一个主题对象的各个方面及其特称进行专指标弓I,并集中相关信息资源。为了节省篇幅,增加标题表的伸缩性,现代标题表一般也采用设置通用复分标题表等方式。
标题法对标题词之间联系的揭示主要通过参照进行。早期标题法的参照形式仅限于见参照和参见参照,用于揭示具有等同关系和相关关系词汇。但进入80年代后,一些标题表对参照系统进行了改进。标题法特点是
标题法的不足是,由于采用列举方式,往往造成收词量巨大、专指度相对不足、修订量大等问题;同时,大量采用定组式标题,在手索工具中使用时只能从规定的组配顺序人手进行查找,无法从多个因素、角度检索,必然会影响检索效果。
作为一种传统的主题法类型,标题法开创了主题法的最初形式,探索了标题法词汇控制的一系列方法,包括:制订了标题的选择和确定的准则、规定了标题的形式、标题之间关系的揭示、标题标引过程中组配的使用方法等。目前,使用最广泛的标题表是《美国国会图书馆标题表》(Library Of Congress Subject Headings,简称国会标题表)。
2.元词法
所谓元词,是指用来标引文献主题的、最基本的、字面上不能再分的语词。如“物理”和“贸易”就属于元词,而“知识组织”和“主题标引”可进一步分解成“知识”、“组织”、“主题”、“标引”。在使用元词的情况下,对复合主题资源的标引和检索是通过单元词的组配进行的。如“经济文献检索”这一主题,就必须通过“经济”、“文献”、“检索”3个单元词进行标引。比较系统地建立起元词法的方法体系的,是1951年美国陶伯建立的单元词卡系统。
该系统的基本方法是:
(1) 以元词为文献主题检索标识。例如对一论述经济文献检索的文献,必须使用经济、文献、检索3个字面上不能再分的语词组配标引。
(2) 对标引词不进行词汇控制。一般直接使用自然语言中的语词作为标识。
(3) 以反记法记录。不是将标识记录在文献款目上,而是为每一个元词制作一张卡片,在元词标识下记录所有标引有该词的文献号,文献号为文献在文献收藏集合中所处位置的号码;
(4) 按字顺组织元词卡系统。即将元词卡按元词标识的字顺排列,组成由元词卡组成的系统,以备查检。
(5) 组配检索。通常根据检索对象的主题,选出相应的元词卡,通过对相关卡片上的文献号进行目测比较,检出各卡上同时出现的文献号,供查找文献使用。例,在检索“化学文献检索”这一主题的文献时,须检出化学、文献、检索等元词卡,进行匹配查找。
元词法曾在50年代初用于美国的一些文献机构,除采用卡片目录的形式外,也用于穿孑L卡系统。与标题法相比,元词法的特点是:①词表体积小;②标引专指度高;③便于从不同主题词角度检索;④适合对专指主题进行标引。元词法的不足是:①直接性差;②不适宜用于查找论述基本主题的文献,如:不适宜对论述“经济”、“化学”等基本主题的文献进行查找;③采用字面组配方法,在字面分解与语义分解不一致时,容易造成误差。例如,按字面组配,“猎户星座”应为“猎户”和“星座”进行组配,使得信息资源归人与内容不相关的语词之下。④早期的元词法未建立参照系统,无法进行相关资料的检索。早期的元词系统属于自然语言系统,一般不建立词表,直接从文献选词,不揭示词间关系。但随着使用需要,逐渐放弃了这些做法,后期使用的元词系统往往也编制相应的词表。
元词法在主题法发展中的主要贡献是率先探索了后组式检索方法。元词法使用的反记法,是目前机检系统中倒排档的先声,后来为叙词法等主题法类型所采用。此外,元词法还广泛探索了后组式检索中的规律和问题,包括属于自然语言系统联号、职号等辅助符号的使用方法以及对各种检索系统的适应性,为叙词法的发展和使用开辟了道路。元词法目前已为叙词法所取代。
第一节 主题法概述
3.叙词法
叙词,国内亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。叙词法形成于50年代末,是在吸取元词法、标题法及分面组配式分类法等的优点的基础上发展起来的一个新的检索语言语种。第一部叙词表出现在20世纪50年代末期,其后,随着计算机的应用,叙词表的编制迅速发展,使叙词语言成为受控检索的主要语种。
叙词语言与元词语言的不同是,将分面分类中的概念组配引入主题法,在采用词汇标识进行组配的同时,以概念组配代替了元词法的字面组配。叙词语言的概念组配虽然与字面组配一样,都是通过语词标识的组配表达文献主题的,但两者存在着以下不同:
其一,语词单元不同。 其二,组配的依据不同。
上述的改进使叙词法克服了元词法因字面组配造成的语义误差,可以使标引结果更加准确。除上述特点外,叙词法的最显著的特点是,它是在综合多种检索语言检索方法的优点基础上发展起来的检索语言。根据标引和检索需要,结合计算机的使用,叙词法广泛吸收多种检索语言的特点,用以构造叙词法的结构和方法体系,不仅参照系统完善,同时还发展了多种形式索引,包括范畴索引、词族索引、轮排索引,直至编制各种形式的分类主题一体化词表等,使其成为一种结构完备、功能丰富的检索语言。叙词语言对其他检索语言技术的吸收情况见表8—l。
叙词法集多种检索语言的功能于一身,使其成为一种具备优越性能的现代检索语言。其特点如下:①结构完备,词汇控制严格,可以根据检索系统的需要对词汇进行有效控制。②组配准确,标引能力强,能够准确、专指地标引和揭示各种主题内容;③检索效率高,可以通过灵活组配方式进行多途径检索,达到较好的检索效果;④对检索系统适应能力强,可以同时适用于标识单元和文献单元检索方式,既能较好适应计算机检索系统的要求,又能适应手工检索系统的需要。叙词法的不足主要是:由于词汇控制要求严格,词表编制和管理的难度大,需要花费较多人力、物力;文献标引须在概念分析的基础上进行,标引难度大,要求高,叙词语言是受控主题语言的主流。到目前为止,国外的叙词表数量不少于千种,我国的叙词表也已超过130种。我国目前使用最广泛的叙词表为《汉语主题词表》。
除上述主题法类型外,还存在从属于自然语言类型的关键词法等。关键词法是随着计算机的出现,为适应索引编制自动化的需要而产生的主题法类型。这种方法直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词的轮排的方式揭示文献主题的主题法。对关键词法的详细介绍见本书第九章。主题法的类型除了可以分为标题法、元词法、叙词法、关键词法外;还可以按照其语词标识的组配特点,分为先组定组式、先组散组式、后组式三种;按照其使用时是否进行控制,分为受控主题法与非控主题法等类型。先组定组式主题法是指复杂主题的标识,在词表中就已经组配好了的,使用时,可以直接从词表的标识中选取。标题法属于这一类型,分类法中的等级列举法也属于这一类型。
先组散组式是指复杂主题的标识,在词表中并未组配,而是在标引阶段根据标引文献资源的主题需要进行组配。
自然语言检索系统是直接使用文献或用户检索使用的自然语言语词进行的整序方法。这种方式包括关键词法、自然语言文本检索等,早期的元词法也属于这一类型。这类整序法的特点是不需要使用受控词表,但一般仍需遵守一定的文献标引规则或检索措施,以改进使用效果。
在受控语言的三种主题法类型中,叙词法的发展最为充分,技术上最为完备,与计算机技术结合使用,取得较好的效果,因而使用也最为广泛。我国目前使用的主题法类型基本上为叙词法。
第二节 叙词语言的词汇控制
在采用受控标引的情况下,主题法对信息资源的标引和检索是在词汇控制的基础上,依据一定的主题词表进行的。在各种不同的主题语言类型中,叙词语言的词汇控制广泛吸收其他检索语言有关词汇控制韵各种手段和措施,其方法最为完备、严密。
叙词语言的词汇控制一般是在自然语言的基础上,根据标引和检索的需要进行的,包括词汇选择、词形控制、词义控制、词间关系控制等基本方面,下面分别作一概要介绍。
一、词汇选择
为了保证词汇的选择质量,叙词表对词汇选择原则以及词汇的类型、范围具有明确的规定。
1.词汇选择原则
为了保证词汇选择的质量,汉语叙词的选择一般遵守下述原则:
(1)叙词的选择,应从标引和检索的实际需要出发,并考虑各学科的现状及发展。选定的语词,应是各个学科领域内经常出现的,在文献检索中具有一定使用频率、并能汇集一定文献量的名词术语。对于表达新事物、新兴学科、新技术的语词,应根据其现实需要,结合其发展情况,加以选用。
(2)选择的语词应概念明确,一词一义,符合科学性、通用性的特点,适宜于准确地表达文献主题和检索提问。对于自然语言中的同形异义词、多义词,则通过限定的方法加以使用。
(3)语词的选择,要求既能发挥组配的优越性,又能兼顾词汇的专指性,在收入单词的同
时也收入一定数量的具有造词功能的词和词组。
(4)选定的语词应符合汉语的构词特点,在词形上符合作为语词标识的要求,并尽量选用便于字面成族的词。
2.词汇类型
叙词表选词以名词为主,必要时也收入少量形容词。按照反映事物概念的数量特点,叙词可以分为普通名词和专有名词两种。普通名词是组成叙词表的基本词汇,其选词范围包括:
(1) 表示具体事物的名词术语,如商品、信息资源、汽车、车床、电子计算机等。
(2) 表示事物材料的名词术语,如塑料、橡胶、人造纤维、感光材料等。
(3) 表示事物性质、现象、状态、过程等方面的名词术语,如导电性、耐用性、惯性、疲劳、振动、静态等。
(4) 表示对事物的研究方法、工艺等方面的名词术语,如调查、总结、数学模拟、热处理、焊接等。
(5) 表示学科门类的名词术语,如哲学、社会学、传播学、图书馆学、物理学、生物学、分子生物学、工程学、环境科学等。
(6) 表示文献类型的名词术语,如词典、年鉴、百科全书、期刊、手册、目录、索引、专题报告、专利、标准、会议录等。 ·
专有名词用以表达某一特定的单一事物,叙词表一般有重点地选择其较为典型的、有较大研究和检索价值的专有名词,包括:自然地理区划名、政治区划名、机关团体名、人名、历史事件名、产品型号名、文献名等。
3.先组词的选择
按照词汇的构成单元,叙词表的语词可以分为后组词和先组词两类。后组词是以单元概念的语词形式收入词表的词,即单词;先组词指直接以复合概念的语词形式收入词表的词,即词组。采用单词组配的方法表达复合主题,作用是可以减少词量,增加检索入口,提高检全率;不足是,如过分强调使用后组词,会影响标引的直接性,降低查准率,同时也无法揭示一些常用主题概念之间的关系。例如,化学工业的上位概念为重工业,下位概念词包括橡胶工业、塑料工业、合成工业、化肥工业、制药工业等,揭示上述关系对进行相关信息资源的查找十分有益,但主题概念之间的这些联系在使用“化学”与“工业”组配的情况下是无法建立的,只有直接将化学工业等作为先组词加以选用的情况下才能揭示。直接使用先组词可以克服后组词的上述问题,增加标引和检索的准确度,但过多收入先组词会增加词表的篇幅,提高词表的管理费用;同时在手工检索系统中还会造成检索人口减少,影响检全率。因此,关键是根据检索系统的特点和需要,确定词组选择标准,将先组词的数量保持在一定的范围以内。词组的选择是词表编制的难点之一。为了使主题词能够同时适应计算机检索和手工检索的需要,在组配的同时兼顾标引的直接性、专指性。在我国叙词表编制中,下述情况一般直接选用词组:
(1) 词表涉及领域中使用频率较高的常用词组,一般直接收入词表。如化学工业、高等教育、国际贸易政策、情报检索语言、数据处理等,均直接选人。
(2) 一词组分解后其单词的含义会发生变化,产生二义性时,直接选用词组。如燃料电池、全面战争二词分解后,燃料、全面二词的含义发生变化,应直接选人。
(3) 凡有词组分解后其中的一方失去意义,没有实际检索价值,应直接选用词组。如回溯检索、台面二极管二词分解后,回溯、台面两词没有实际检索意义,应直接选人。
(4) 对一词组以组配表达会产生二义性时,可适当选用词组。如:工业橡胶一词,以工业与橡胶组配,可以产生工业橡胶、橡胶工业两种意义,一般直接选择使用。
(5) 有标引价值的专有名词,一般可直接使用。如北京大学一词,如采用北京和大学进行组配标引,含义就会变成北京的大学,应当直接采用。
不直接选用词组的情况包括:
(1) 可分解成两或多个交叉关系概念语词的复合词。如:生物遗传学可分解成生物学和遗传学两个表示交叉关系的语词,不应直接选用。
(2) 由事物与其方面,包括材料、属性;操作等的概念构成的复合词。如铝合金板、水电站设计、汽车修理、模具加工等一般应予以分解。
(3) 由事物与其部分构成的复合词。如直升飞机发动机、汽车轮胎、电视机显像管等。
(4) 由专有名词如国家名、地区名、时代名、人名等与其他主题概念组成的复合词,如中国石油工业、李白诗歌创作等;但由专有名词与其他词组成的专门名称除外,如弗洛伊德误差、阿贝尔扩张等应直接收入。
(5) 由科学术语与文献类型名称组成的复合词。如:计算机词典、固体物理书目等。
二、词形控制与词义控制
1.词形控制
词形控制主要指对异形同义词进行处理,使得同一主题内容的文献得以集中在同一语词形式之下;同时根据排检需要对语词形式及构成成分作出规定,以保证排列效果,方便检索。汉语叙词表的词形控制具体包括下列内容:
(1) 规定语词形体
当一个汉字存在几种形体,如繁简体、异体或未正式公布的简体时,一律以通行的字体为标准。
(2) 规定外来语和数字的用法
一般情况下,外文名词术语均采用汉译名,但在外文名词术语更为通行时,也可直接选用。阿拉伯数字则可在必要时选用。例:FORTRAN语言、A射线、BCS理论、铀235等。
(3)规定标点符号的用法
一般只在必要时使用括号、连线、小圆点等符号,其他标点符号除特殊情况外,概不使用。例:静态分析(经济学)、发射管(电子)、九.一八事变、气体一固体界面等均为正式主题词。 ·
(4)规定词序
复合词在收入词表时一般均采用自然语序,不使用倒置形式。例如:用“公共图书馆”,不用“图书馆,公共高校”;用"212程物理学”,不用“物理学,工程”。倒置形式在必要时可作为非叙词收入词表,用于指向相应叙词。规定外文的词形
(5)主要是规定单复数、名词形式等。一般可依据该文字叙词表的编制规范进行。
如英文中,可数名词多采用复数形式;不可数名词,或表示抽象概念名词,采用单数形式;如一个词的单数和复数表示不同概念,可同时收入词表。
(6)规定词长
为了使其适合排检和计算机检索的需要,一般应对字长作出规定,如《汉表》规定词长不得超过14个汉字,过长的语词可用简称或缩写等方法处理,使其保持在规定的长度以内。
第三节 叙词表的结构
主题标引和检索是依据一定的主题标引工具进行的。在各种主题标引工具中,叙词表使用最为普遍,发展最为充分、最具有典型性。
1.叙词表
国内又称为主题词表,对于它的概念,一般可以从功能或结构的角度加以限
在款目单元的各种成分中,一款目中起标目作用的词称为款目词,款目词是叙词款目和非叙词款目的核心和排检的依据。上例的汉语叙词表款目中,款目词项除款目词外,还包括汉语拼音和对应的外语译名。其中,汉语拼音只起帮助排检的作用,也可以省略;外文译名则用于揭示其与双语种对照索引的联系。单语种叙词表中,一般没有外文译名。标记项记录款目词的序号及款目词的范畴号等标记组成。序号是为款目词在主表中的顺序号,通常著录于款目词之前,主要用于加强与词表各组成部分的联系,方便款目词的查找;范畴号表示该款目词在范畴索引中的类目归属,是查找范畴索引的依据。注释项是款目词的补充说明,包括含义注释、历史注释及用法注释等,只有必要时才会使用。
叙词款目中的语义关系项则由各有关的参照项组成,是在字顺表中揭示词间关系的基本手段。叙词款目下一般根据语义情况,依次设置代、分、属、族、参各项参照,揭示与相关叙词之间的各种语义联系。非叙词下只设用项,用于指向相应的叙词。在叙词款目的参照项中,等级关系常见的显示方式之一,是收入该词直接上位词、直接下位词,为款目词提供基本的词义环境。如:国外的《教育资源叙词表》(ERIC)。这种方法可以揭示与款目词直接相关的等级关系,同时篇幅也比较节省;不少词表为揭示主表与词族索引的联系,在参照系统中设置族项,增加对族首词的显示,如《汉表》。对等级关系显示的另一种方式,是在参照项中完整显示一叙词的等级关系。这种方式相当于将词族表并入主表,可以减少词表的组成部分,但同时会增加字顺表的篇幅。在采用此类显示方式时,多数大型叙词表通常只在族首词下才采用全显示,在普通叙词下仍只作单级显示,即只收入该词最临近一级的上下位词。
字顺表通常以收录普通叙词为主,同时也适当收录一定数量的常用专有叙词。为方便专有叙词的处理,大型叙词表通常为某些类型的专有叙词编制专有叙词表。此外,为了缩小篇幅,一些篇幅较大的词表通常还为字顺表编制字顺索引和入口词表。字顺索引仅收入叙词、非叙词,除了非叙词含有用项参照外,其余项目一概不收,为使用者提供一种便捷查检的手册。人口词表则是将非叙词集中编制的表,收入词表编制或标引中出现的按等同关系处理的非叙词,包括未收入词表的常见组代形式等,用以改善标引和检索的一致性。
2.专有叙词表
专有叙词表,亦称附表,是将众多专有叙词款目按字顺排列的一览表,是字顺表的重要组成部分。
专有叙词表的作用是:
专有名词指表达某一单一事物对象的名称。常用的专有名词包括人名、地名、机构名、产品型号名等,数量大,范围广。不少专有名词具有大的标引和检索价值。如何对专有名词进行有效控制,是词表编制中一个复杂的问题,目前各表并无统一模式,通常根据使用需要,将一些特定领域的专有名词单独编为副表。
专有叙词的款目结构和排列方式与字顺主表相近。由于这类叙词本身具有按范畴集勺特点,一般不收入范畴索引。对于专有叙词除编制专有叙词表外,目前主要有两个处理办法,其一是建立典据档。美国国会图书馆为地名、人名、机构名、文献名等建立了相应的典据档。
另一个处理办法是规定使用指定的工具书,作为规范标引的方法。
第三节 叙词表的结构(3)
四、关于词表的组成模式
以上概要介绍了叙词表的各种组成部分。叙词表的结构基本上是由上述三种显示方 式组成的,但就一部具体的词表而言,并不需要包括所有的上述部分,应根据实用需要确 定其构成形式。从叙词语言的发展历史看,叙词表的结构组成随着词表编制技术发展,经历了一个逐步变化的过程。早期的叙词表结构和功能都比较单一,往往仅有一个字顺表 或轮排表。随着计算机数据处理能力的提高,许多词表通过增加组成成分改进其功能。 经过发展的传统叙词表,通常以字顺表为主体,结合多种辅助表,如范畴索引、词族索引、轮排索引等组成。其后,为了在功能完善的同时优化其结构,叙词表又逐步结构简明方面发展,包括将词族表、轮排表结合进主表,直接以分类表代替龚表等形式。
目前各种实用的叙词表,其结构并无统一模式,呈现出多样化的趋势,但一部功能完善的叙词表至少应包括两部分:其一为字顺显示部分,其二为系:包括范畴表或分类表等。
目前叙词表采用的将两部分结合的形式大致有以下几种:
同时,在各个部分的组成上,也呈现多样化的趋势。如:将词族索引并入字顺表,将范畴索引与词族索引合并等,在字顺表与分类表结合的形式中,也存在着分面分类表、列举式分类表等多种分类显示形式。为根据蔡润对国内20世纪70年代至90年代编制的65部专业叙词表的结构调查得到的数据。可以看出,由字顺表、范畴索引结合的词表共52部,占调查饲表总数的80%,如果加上字顺表与分类表结合的词表,共达到56部(其中2部同时有范畴索引和分 类表),占调查词表总数的86%,表明大多数词表采用字顺显示与系统显示结合的方式。 统计表中,主表与词族表结合共18部,占27.2%;词族表与范畴表结合共8部,占 12.2%;字顺表十分类表共6部,占9.2%,三者结合达到49.4%,表明我国词表编制工作 者对功能完善、结构简明的重视。此外,采用副表的有32部、英汉对照索引的48部,比较 正常;轮排索引2部,相对比较少。上述调查充分反映出叙词表结构多样化的特点。
词表编制形式多样,特点各异,很难确定何种形式最为优越。一般而言,词表的结构 应根据文献单位的设备条件、学科范围、收藏规模、用户对象等情况综合考虑。
就词表的 结构而言,一个好的词表应力求具备下述特点:
(1) 功能完备。通过各个组成部分的结合,使词表具备该系统所需要的各种有效功能。
(2) 功能互补。词表的各个组成部分的功能应是有效的,性能上是互补的,可以通过相 互结合,组成一个完整的整体。
(3) 结构简明。各个组成部分之间应避免重复,整个词表的结构应加强整体性,减少组 成部分,力图在结构简明的同时达到功能完备的目的。
(4) 编制和管理方便。词表的结构应便于编制,利于在保持原有系统的基础上进行及时 增补、管理;
(5) 易于掌握、便于使用。词表应易于理解,便于专业人员和终端用户使用。
总之,计算机的使用,使叙词表相关部分之间的结合使用更方便,使叙词表的结构出 现了多样化的趋势。如何根据系统的特点和需要建立起结构简明、功能完备、适合于实际 使用的整体结构,目前仍在不断探索之中。
第四节 叙词表的编制与维护(1)
一、叙词表的编制
叙词表的编制一般包括总体设计、选词、对词汇进行处理、编表、审核和试标引、出版。
1.总体设计
叙词表编制以前,一般应根据系统的标引对象、设备条件和使用需要,对叙词表的总体要求做出规定。包括:
① 确定词表的主题领域,以便可以根据涉及的范围对词汇进行选择和处理。一般情况下,中心主题领域是收词的重点,应做到词量充分;边缘学科门类,则可相对概略。
② 确定词表的标引对象是图书、期刊论文、科技报告、档案,还是网络信息资源,以便根据情况确定词汇的专指度。
③ 确定词表的功能,是供机械检索使用,还是同时供编制手工检索工具;是严格的受挫系统,还是与自然语言结合使用的系统,对词类、词形以及词汇的先组度等有何规定,是否使用辅助检准措施,包括联号、职号等。
④ 确定系统的用户对象是谁,如果系统的使用对象为终端用户,一般应选人更多自然语言的语词作人口词。
⑤ 确定词汇的特点,明确收录的词汇要求有较高专指度,还是只需要中等专指度。
⑥ 规定词表的结构,是采用字顺显示结合传统的系统显示,还是字顺显示结合图形显示或分类显示等;是单语种叙词表、还是多语种叙词表;同时,还应明确各个组成部分中款目的结构以及具体的组成成分。
⑦ 明确词表编制的条件,包括使用的设备条件、时间等,以便确定编表的方法、计划和步骤。
在明确上述问题的基础上,就可以根据规定的要求进行词表的编制。
2、选词
一般应根据词表涉及的主题或学科范围进行词汇的选择。词汇的收集通常有以下来源:
包括参考检索系统和用户的检索提问记录,邀请主题领域的专家提供常用的检索词汇,收集后整理作为词表词汇的重要来源。收集的词汇可以以卡片或机读形式记录(见图8—11)。一般应包括定义、同义词、上下位词、相关词,术语来源、出现频率、词汇所属的类或主题领域等,以便进一步处理。对从词表或词库中抽调的词汇,还应考虑其关系是否适用,必要时可加以调整。记录中的各个项目,可在词汇处理的过程中逐步完善。
3、词汇整理
词汇的处理通常有两种方法,
一种是分类的方法,按照学科、专业和词汇分类的特点,实现将词汇按学科或主题集中;然后,再在一个学科或主题领域下根据其特点确定基本范畴或分面,按范畴对词汇加以类聚。通过采用这一方法,其一,可以按领域或范畴了解收词情况,确定词汇的收集是否充分,各部分之间是否平衡,词汇的质量如何,根据需要进行必要增补和调整;其次,可以在将同一领域的词汇集中的基础上,进行词间关系处理,包括发现同义词、上下位词、相关词等,并进行相应处理。例如:在多学科词表编制时,可首先按专业门类,将图书馆学的主题词集中在一起;再按照其基本范畴,分别按本体(图书馆类型)、材料(文献载体形式)、操作(文献处理手段)、设备条件等,对词汇加以区分;然后再根据范畴对词汇进行增补、分析、处理。
另一种方法,是结合采用轮排的方法。通过按相同的词素对词汇进行集中,分析收词情况,对词汇进行增补,同时,根据轮排时字面成族的特点,对词间关系进行处理。采用轮排方法的优点是,可以采用人机结合的方式进行轮排系统的编制,比词汇分类的速度快、效率高,可以减少工作量。此外,轮排索引可以发现分类处理中不能发现的词间关系。如果将两种方法结合,可以提高处理的质量。
4.展开词表
根据上述处理结果,就可以根据词表组成结构,进一步生成完整的词表,包括字顺表、系统显示,如等级索引、范畴索引、轮排索引等。在上述各个组成部分的建立过程中,族首词的选择需要做出智力判断,应根据专业领域的检索需要加以确定,并应照顾到等级索引中不同词族之间的平衡;轮排索引中词素的切分,一般也需要根据汉语的特点进行人工干预。在编制分面叙词表的情况下,一般应编制要求,按照基本主题领域、基本范畴、子分面建立前详细的分面结构,作为词表编制的基础,并详细确定类级,类号、分面标头等。其余的工作,均为事务性劳动,可以依据词汇处理提供的数据完成。要求排列正确,等级分明,相关参照完整。这一工作由人工进行,工作量较大,耗时长、容易出错、有一定难度,但由计算机辅助处理,则十分方便。
5.审核和试验
在生成词表的同时,应广泛征求专家意见,并对词表进行详细的审核,包括:审核对款目的参照是否完备,同义词、准同义词的处理是否恰当,叙词的词形是否符合规范,字排列是否准确,词表的格式字体是否符合规定等。同时,使用草表进行试验,包括试标和结合用户提问进行对照等。试标引数量通常应在500~1000文献资源左右,通过试可以发现问题,增补新词,调整参照关系,使其比较适合实际使用。
6.出版
在进行审核和试验后加以充实,如有必要,可以出版。出版前一般应编写详细的词编制说明以及标引规则、特殊方法等,以便于用户使用。
第四节 叙词表的编制与维护(2)
二、叙词表的维护
叙词表作为动态词表,要求根据信息资源标引的需要,随着学科领域的发展及时修订增补。一般情况下,进行深度标引的词表,比一般层次的词表更需要更新。通常在检索系统或数据库发展初期,词表的词汇会随着标引,出现较高的增长,随后逐步达到相对稳定;但如该主题领域学科发生急剧变化或数据库扩大收录范围,则词汇会再次出现大幅度增长。词表的维护,应注意根据信息资源的特点、标引的阶段以及学科领域的变化等的规律进行。
叙词表的维护通常包括:
(1) 增补新词 (2) 删除旧词 (3) 修改调整
词表维护工作一般应由专门的编辑班子或专人负责。为了保证词表的质量,一般应以相应的数据为依据,包括标引频率、检索频率以及词表有关数据,词表维护过程,应详细记录词汇的变化,作好词汇的历史注释,使词表词汇的变化发展脉络清楚,以便必要时,用户可以利用历史注释进行回溯检索。同时,使用计算机管理系统,简化词汇维护的操作,提高词表管理的水平。
三、叙词表编制和管理中的计算机使用
词表编制和管理同时涉及智力劳动和大量事务性操作。采用手工方式完成词表的编制和管理中的大量事务性操作,不仅耗时长,成本高,而且容易出现差错,也不利于词表的及时更新。使用计算机进行辅助编制,就可以克服上述问题。
其优点是:①可以由机器完成事务性操作,保证编制的质量与速度;
②改进词汇处理的效果和管理水平;
③节省人力物力,降低编制成本;
④可以在处理的基础上生成计算机主文档,增强词表的使用能力和效果。
由于这些优点,建立计算机词表管理系统,由计算机辅助编制和管理成为叙词表编制管理的基本形式。叙词表的计算机辅助编制一般包括以下方面:
1.收词阶段
词汇收集阶段计算机可用于以下方面:
(1) 记录从各种来源人工收集的词汇,并按照需要进行排列;
(2) 可利用计算机直接从各种数据库或机检系统获取词汇,包括标引词、检索词等,并可获得相应使用频率的数据,作为词汇收集的依据;
(3) 可使用计算机直接从标题、文摘选词,并获得词汇同现率等数据,供确定相关词参考。虽然利用计算机从汉语文献中选词仍存在着语词切分问题,但目前不少系统已具有这一能力。
(4) 可根据需要对上述数据进行必要处理,如直接按字顺,利用词频排列,在范畴下按字顺排列;对词汇进行轮排等,以便根据使用需要,供词汇选择或处理使用等。
上述各方面不仅可以促进词汇的收集,同时也为词汇的处理提供了有利条件。
2.词表的辅助生成
叙词表的结构及其词间关系的处理是一种智力劳动,由人工完成。但在叙词表结构确定,词间关系明确的情况下,计算机可用于自动生成相应款目,并且可以根据结构的特点加以扩充。
除自动生成上述关系外,计算机还可以根据有关数据,自动生成词表的各种显示。
3.叙词表的管理和维护
使用计算机管理系统对词表进行管理和维护过程中,词汇调整和维护的智力工作由管理人员承担,事务性工作则由计算机完成,并且比人工更加有效。在新词增补时,计算机程序可以保证将需要增补的新词在字顺序列的相应位置上排列,并同时增加在参照关系和相应索引的相应位置上。在删除术语时,词表管理系统可以通过一体化处理,同时删除词表中所有位置上出现的决定删除的词。在术语修改或关系改变时。
此外,计算机并可以根据需要提供各种必要的帮助,如各种数据统计等作为词表管理和维护的依据等。
4.计算机主文档的其他作用
通过建立词表主文档,可以使词表在信息存储和检索中发挥更大的作用。包括:在标引人员或用户输入人口词时,自动以受控词代替,并在系统需要时,同时自动进行上位词登录;提供联机显示,根据标引和检索需要提供一个词在词表的字顺表或索引的相应位置上的显示,以备用户浏览;
进行各种频率统计,包括标引频率、检索频率、以及词表的各种数据,如:等同率、先组度、关联比、参照度等,供词表管理时使用;记录词汇的变化,新旧术语的更替等,这些数据可用于了解词表的变化,进行回溯检索;可以根据需要,定期输出供出版用的整个词表文本或各种形式的抽印本,自动为书本式索引配制参照,通过计算机自动输出; 还可以根据输入的主题概念,由计算机提供字面相关的叙词,供标引人员或用户选择使用等,以减轻标引人员和用户选词的难度,改进使用效果。 有的系统还可以结合词表,建立检索策略,进行检索等。
第一节 主题标引概述
一、主题标引与分类标引的异同
主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程。按照是否使用词表,主题标引可以分为受控标引和自由标引两类,依据特定词表赋予检索标识的,称为受控标引;直接采用自然语言语词进行标引的,称为自由标引。
作为从主题内容角度进行揭示的方法,主题标引是信息资源标引和检索的重要手段。与分类标引相比,两者既有相同点,又有不同之处。
主题标引与分类标引的相同点,主要表现在:
(1) 标引的对象相同。
(2) 标引的数据来源相同。
(3) 标引的过程相同。
分类标引和主题标引的不同,则是由两种不同组织方式的差异决定的。在不同系统中,分类标引和主题标引因采用的类表或词表不同,其差异也是在变化的。在分类标引采用《中图法》,主题标引采用《汉表》的情况下,两者主要存在着下列不同:
(1) 主题分析的角度不同。分类侧重于从学科角度进行组织和揭示,除需要确定待标的
内容对象外,还必须进一步弄清其研究的学科角度。主题标引则不必考虑资源的学科属性,可以直接按其内容对象进行标引。如在标引《茶树的种植》一书时,分类标引需在确定内容对象的同时进一判定其研究的学科角度为农业,按农业大类的体系进行标引;而主题标引则可以直接按析出的主题概念加以转换,不必确定其学科归属。
(2) 转换途径不同。分类标引以分类表为工具,一般必须通过分类体系层层查找;主题标引则以字顺系统为主要途径,可以直接从语词出发进行查找。分类标引使用的等级列举式类表,类目列举详尽,可以直接从类表中查找相对应的类目进行标引,转换明确、直观;主题标引使用的叙词表,属于后组式检索语言,词表中只列出供标引使用的基本概念,必须根据收词情况对待标主题概念进行分解转换,有时须反复查找,难度较大。
(3) 标识的特点不同。标识成分上,分类标引的标识是分类号,主题标引的结果是主题词;标识的构成方式上,《中图法》采用整组号码,配号次序由分类法预先规定,形式固定;《汉表》的标识则采用后组形式,在确定先组式标题时,需要将转换结果按主题概念之间关系进行组织,须经过选择主标题,确定主题词的引用次序等步骤,必须熟练掌握相应技术。
(4) 揭示的特点不同。分类标引以学科体系为展开的基础,子目的列举受到先组式体系的束缚,适合对资源的整体内容进行标引,对主题对象的揭示比较概括;主题标引通过组配方式揭示主题,对内容的揭示较为专指适合对资源包括的主题进行灵活指引,充分揭示其主题内容。
上面的分析表明,主题标引与分类标引既存在着相通之处,可以相互借鉴,结合进行;同时也应注意两者的差异,把握各自的特点。
二、标引方式
标引方式是根据文献特点和使用需要确定的标引和揭示文献主题的形式。分类标引和主题标引都存在标引方式的问题,但比较而言,主题标引中标引方式的问题更加典型和重要,因此本书在此处介绍。按照对文献内容的揭示特点,分类标引和主题标引的标引方式通常可以分成以下几种:
1.整体标引进
整体标引,亦称浅标引,是一种概括揭示信息资源基本主题内容的标引。整体标引的对象,可以是书籍、论文、标准、档案或各种其他资源类型。这种标引只揭示信息资源中具有检索价值的整体性主题,不揭示其涉及的各种从属性主题内容。例如,在对《信息管理概论》一书进行整体标引时,只要根据文献的整体内容,以相应分类标识或主题词对“信息管理”这一主题内容进行标引就可以了,对该书中涉及的各个附属主题内容,则不必一一揭示。
如果一资源同时涉及两个或两个以上整体主题,则应根据情况,按照多主题的标引要求进行标引。例如,对《公路运输与铁路运输》这一文献,就应根据文献论述的主题对象,分别对公路运输、铁路运输这两个内容进行标引。整体标引常用于手工检索系统,综合性文献单位对普通图书通常采用这一标引方式。在实际 操作中,对一文献进行整体标引,一般只赋予1—2个分类号,标引词数量限制在2~8个之间。
2.全面标引
全面标引,亦称深标引,是一种充分揭示信息资源论及的所有有检索价值的主题概念的标引。这种标引不仅要求揭示文献论述的整体主题,而且要求揭示符合检索系统要求的所有主题概念。
例如,《黄河水质变化浅析》一文,主要分析了黄河的水质变化,指出城市工业废水及农药大量使用是造成一些支流污染的主要原因。在对其进行全面标引时,就必须将:水质、变化、水质污染、黄河、农药污染、城市污水、工业废水、河流污染、预测等主题概念一一加以标引和揭示。
全面标引可以加深对信息资源内容的揭示程度,有利于提高检全率,但需要花费较大的人力物力,适合于使用主题标识结合机检系统处理专业领域的论文、技术报告等类型文献;以图书为对象的标引一般不宜采用全面标引形式。在实际操作中,对一资源进行全面标引时,主题词的标引数量通常保持在5—20个。分类标引较少使用全面标引。
3.对口标引
对口标引,亦称重点标引,是一种只揭示文献中适合本专业需要的主题内容的标引。例如:上文提及的《公路运输与铁路运输》,铁路运输单位的文献部门在采用对口标引的情况下,可只对铁路运输的有关内容进行标引,对于其中有关公路运输的内容则一般不予揭示。对口标引具有较强的针对性,可以使标引工作较好地适合用户的实际使用需要,改进费用效益比、提高检准率。有明确服务对象的专业文献单位常采用这一标引方式。
4.综合标引
综合标引是一种以丛书、多卷书、论文集、会议录、标准汇编、档案的案卷等为单位进行的概括性标引。综合性标引除揭示资源的主题内容外,一般还应根据情况对资源类型进行必要的揭示。例如:《机械设计丛书》在以整套书为单位进行标引时,除对整体内容“机械设计”进行标引外,通常应对“丛书”这一资源类型进行必要的揭示。
5.分析标引
分析标引是一种根据资源中部分片段或集合型资源的构成单元进行的标引。例如:《西行漫记》一书中记述毛泽东生平的篇章,是研究毛泽东生平活动的重要资料,可以在对全书进行整体标引的同时,将这一部分内容以分析标引的方法加以揭示。分析标引是与整体标引和综合标引相对应的标引方式,其作用在于,可以在进行整体标引或综合标引的同时揭示文献中有检索价值的主题内容。 ’标引方式通常应结合检索系统的设备条件、资源特点、收藏范围、用户需求、标引种类等多种因素加以考虑。例如,手检工具多数采用先组方式标引,对资源内容的揭示一般比较概括,宜采用整体标引,必要时可结合采用分析标引;机检系统以后组式标引为主,通常对主题的揭示比较充分和完备,宜采用全面标引;结合先组方式编制各种手检目录或索引的机检系统,则应兼顾两者的需要,同时采用不同的标引方式。分类标引具有系统组织和揭示的作用,比较适合于整体性标引;主题标引则适合于灵活进行分析标引或需要时进行全面标引。综合性文献单位对普通图书资料一般采用整体标引方式,必要时以分析标引加以补充;对丛书大多同时采用综合标引和分散标弓1的方式;对多卷书、论文集、会议录等通常只采用综合标引,必要时才进行分析标引;一般只对特定领域的科学论文、技术报告等进行全面标引。专业文献单位则通常结合本单位的需求,适当采用对口标引,必要时对专业领域的文献进行全面标引。
此外,标引方式的确定还应注意与系统的成本效益相一致。标引方式通常应在检索系统建立时根据需要明确规定。
第二节 主题标引方法(1)
一、主题分析
主题分析是指根据标引和检索的需要,对信息资源内容特征进行分析,提炼主题概念的
1、分析主题类型
按照不同的划分标准,信息资源中主题的情况可以分为下述各种相应类型:
(1) 单主题和多主题
根据一信息资源讨论的主题数量,可分为单主题和多主题两类。单主题资源是指该信息资源只研究一个中心对象或问题。它可以概括论述某一特定的事物对象或问题,如:汽车、互联网络、境保护;也可以论述事物对象的某一部分、方面或与其他事物对象的联系,如:汽车发动机、互联网络的管理、汽车尾气对环境的影响等。对单主题文献一般还应根据其主题构成,进一步分析。多主题资源是指该信息资源同时研究两个或多个事物对象或问题。按照主题之间的关系,它们可以是并列关系主题,如图书馆和情报所,汽车和拖拉机的维修和使用;也可以是同时论述一个大主题和若干个小主题的从属关系主题,如生物学与生物物理学,太阳系、金星、火星和地球等。对多主题文献应以主题为单位,分别对其主题构成及其关系进行分析。
(2) 单元主题、复合主题和联结主题
根据一主题中主题概念的数量及其关系,可以分为单元主题、复合主题和联结主题。单元主题指由一个基本概念构成的主题类型。如图书馆、教育心理学。这类主题的分析比较简单,只要直接将其析出即可。复合主题指由两个或多个基本主题概念结合构成的主题。根据主题概念之间的关系,复合主题的类型包括:
A 、并列主题概念组配构成的复合主题。
B、事物与方面构成的复合主题。
C、事物与部分概念构成的复合主题。对复合主题一般还应进一步分析其构成,明确主题概念之间的关系,以便在此基础上对主题概念作出取舍。联结主题,亦称相关主题,指同时涉及两个或多个主题对象之间联系的一种主题类型。在这类主题中,不同主题对象之间的关系比较松散,不像一般复合主题那样已经融合成一个整体,且形成一定的关系类型,是一种介乎单主题与多主题之间的主题类型。
常见的关系类型有
(3) 主要主题和次要主题
按照信息资源中对主题论述的重要程度,可以分为主要主题和次要主题。
主要主题是文献论述的主题内容中,作者重点论述的中心主题。一个文献一般至少有一个主要主题,有时也可以有两个或多个主要主题。
次要主题是指一文献论述中不作为重点讨论的主题。假如一篇论述主题标引的文献中,以一定篇幅对分类标引的特点作了概要说明和比较,在此情况下,分类标引就属于次要主题。对于次要主题,应根据检索系统要求及其本身的情报价值,确定是否将其析出,
(4) 专业主题和非专业主题
按照文献主题与检索系统专业的相关程度,可以分为专业主题和非专业主题。
专业主题是指与检索系统专业性质一致的主题。它可以是主要主题,也可以是次要主题。对这类主题,一般应予充分揭示。在图书馆专业的检索系统中,只要该文献对分类标引的论述有一定参考价值,就可以考虑将它和主题标引一起,同时析出。
非专业主题是指与检索系统专业性质不一致的主题。例如上文提到的“汽车和拖拉机液压系统”这一文献,在汽车制造部门的检索系统中,“拖拉机液压系统’’这一主题就属于非专业主题。对这类主题,专业检索系统往往不予揭示或只在对该专业的研究有联系、有启发、有一定使用价值时才酌情析出。
(5) 显性主题和隐性主题
按照资源论述时的表达方式,可以分为显性主题和隐性主题。显性主题是指信息资源正面明确阐述的主题。例如上面的文献中提到的汽车维修、拖拉机维修,就属于显性主题。对显性主题的分析比较容易,可以根据该文献的论述直接提取。
隐性主题则是指信息资源中没有用直接的语词明确描述,隐含在其他字面形式中的主题。
上述对主题类型的划分,是根据主题标引的需要,从不同角度进行的,目的是便于根
据各种主题类型的特点,从不同角度加以识别和提炼。一资源的主题往往不限于某种划分的一个类型。例如,“网络技术服务”不仅是单主题,同时也属于复合主题、主要主题、显性主题,在信息产业领域的检索系统中,属于专业主题。在主题分析时,可以根据其特点,进一步分析、提炼和取舍。
2.分析主题结构
所谓主题结构是指构成文献主题的各个基本主题因素以及它们之间的相互关系。分析主题结构的目的是,在分析主题类型的基础上,进一步对文献中复合主题的成分进行分析,以便查明主题构成因素及其相互关系,对主题概念进行提炼。信息资源的主题结构有其本身的层次和规律性。
按照这一结构,就可以以概括、一致的方式,对文献主题构成成分及其关系进行分析,并以此作为提炼主题概念的依据。
采用这一方式进行主题分析的作用,一是有助于查明主题概念的成分,避免遗漏有检索价值的主题概念;二是可以在明确主题因素之间关系的基础上,根据使用需要,对主题概念进行合理的分析和选择;三是采用统一的规范进行,也有助于增加主题分析结果的一致性。
总之,分析主题结构,必须依据主题规律进行。在按照一定的主题分析结构模式对文献主题分析的过程中,应注意结合主题因素之间的关系和内在的规律加以使用。除依据我国文献标引工作标准中提出的引用次序外,也可以参考国外比较成熟的引用次序。一般可以首先按照目的性原则或显著性原则,将一主题领域内用户作为主要查找对象的文献主题内容作为中心主题,然后根据主题因素之间的联系,按照依存原则确定各个主题因素之间的关系,在查明文献中涉及的主题概念及其关系的基础上,重点选择中心主题概念,适当选择次要概念,根据检索需要,做好主题成分的确认和取舍。除了采用通用主题分析公式外,专业领域的主题标引系统还可以根据专门部门的特点和需要,通过确定详细的主题分析提纲,明确主题分析要点,规范主题分析。
第二节 主题标引方法(2)
3.主题分析误差及克服方法
(1) 主题分析常见的误差
主题分析可能出现的误差主要有三种:
其一,主题概念提炼不足。即提炼出来的主题概念少于应提炼的主题概念,没有把文献中符合检索系统要求的所有相关主题概念都提炼出来。这一误差会造成漏标、漏检,影响检全率。
其二,主题概念提炼过度。即所提炼的主题概念多于应提炼的主题概念。包括提炼了文献未论述的主题概念或不符合检索系统的要求的主题概念两种情况。这一误差会造成误标或过度标引,影响检准率。
其三,提炼错误。即没有把主题概念正确提炼出来、没有准确确定学科归属等。这一误差会同时造成误标或漏标,影响查全率和查准率。
(2) 主题分析误差克服办法
要克服上述误差,对主题概念的提炼一般应注意考虑下述因素:
① 信息资源的客观论述情况。
② 检索语言的特点。
检索系统的标引深度。对应于概括标引和全面标引,主题分析可以分为概括分析和描述分析。概括分析一般只需析出一资源的整体性主题;描述分析则要求提炼出信息资源论述的全部有检索价值的主题概念。如果检索系统采用的是浅标引,可采用概括分析的方法,只析出信息资源的整体性主题;如检索系统采用的是深度标引,则应按描述分析的方法,对论述的各种有检索价值的主题概念进行充分的提炼和选取。检索系统的专业性质。不同专业文献单位对主题分析的角度和取舍要求不同。一般来说,综合性文献单位要求根据资源的整体内容,全面分析出有检索价值的主题对象;专业文献单位则根据用户需要,重点选取与本专业有关的信息内容。因此,应当根据本部门的标引性质、要求、重点等,针对性地对主题概念进行提炼,使主题分析有较强的实用性。
隐含概念的分析。隐含概念是指没有在字面上明确显示的主题概念。做好隐含概念的分析,有助于克服主题概念的提炼不足和错误,改进主题分析的质量。分析隐含概念的关键在于,应善于根据文献的内容描述把握文献隐含的内容实质。
对隐含概念的分析,有一个逐步总结和积累经验的过程,应在了解专业知识的基础上,通过标引实践,掌握其规律性,不断提高。
主题概念的转换
受控主题标引通常是在主题分析的基础上,依据一定的词表为工具,将析出的主题概念转化为规范化的主题词,即叙词,并根据检索系统的要求,对标识作出处理。要做好这一工作,一般应在熟悉词表结构功能的基础上,掌握查表抽词的规律,和主题标识的处理方法。
直接转换是指待标主题概念可以直接用词表上的一个对应叙词加以表述。
分解转换是指待标主题概念没有现成的主题词可供直接标引,必须首先将该主题概 念分解成若干个简单主题概念,然后再分别用相应的主题词进行转换。分解转换是主题标引的难点之一,要善于根据主题概念的构成,掌握转换的规律和方法,包括:
第一,应采用概念分解,避免字面分拆。概念分解是通过减少复杂概念的内涵,将其分解成相应简单概念的过程。按照概念之间的关系,概念分解包括交叉关系分解法和限定关系分解法两种形式。交叉关系分解法是将复合概念分解成两个或多个交叉关系的子概念。
第二,要善于掌握分解转换的程序,按照从专指到泛指的次序进行查找。由于现代叙词表不仅收入元词,同时也收入词组,一个复杂主题概念有时往往可以有多种分解转换的形式。
实际上在转换过程中,不同层次的查找是可以结合进行,一次完成的。
第三,应善于根据概念的含义分析出专指的分解形式。概念分解有两种情况,一种是,复合主题概念本身就包括了专指的字面分解形式,分解过程比较简单。
第四,应注意主题概念分解的结果不得冗余和缺损,使分解结果与被分解的主题概念相吻合。例如:在转换“国际货物集装箱运输”这一主题时,应将其分解转换为“国际运输”、“货物运输”、“集装箱运输”三个与该主题概念关系最接近的词。如在分解转换中缺少“货物运输”,就属于转换的结果有缺损;但如在上述主题概念的转换过程中,把“联合运输”也标入其中,就属于冗余,因为该文献未论述“联合运输”这一主题概念,这两种情况都应该避免。
此外,分解转换时还应遵守有关的标引规则,如对地区、时代等文献类型的有关分类规定。主题概念转换时,使用电子词表不仅有助于提高查词的速度,而且还可以通过截词检索功能,检出词表中具有同一词素或字的叙词,从而能在一定程度上降低分解查词的难度,减少标引误差,有的电子词表还具有一定的复合概念转换的辅助功能。例如:《军用主题词表》应用管理系统对没有对应主题词的概念,设置了间接转换功能,系统能通过对主题概念词素进行分析,利用词面成族的特点,推荐一批相关主题词供用户选择使用。
从中选择含义最接近的“高寒地区作战”、“山地作战”两词进行组配标引,表达该主题,同时将这一组配关系记进系统。使用这一方法,可以极大降低标引难度,提高标引效率和准确度。
三、标识的确定
标识的确定是指依据检索系统的使用需要,在完成标识转换的同时,对标引词进行必要的处理。目前国内的主题检索工具大致有两种类型,其一是以计算机为工具的机检系统;其二是书本式索引或卡片式目录等手检工具。机检系统容量大,对信息资源主题内容揭示较深,一般采用后组方式,通常要求使用适合后组方式的句法手段进行处理。手工检索工具由于篇幅及操作等特点,大多采用先组方式,一般应按照检索的要求,将标引词组织为标题。在实际应用中,不少机检系统往往又利用机检文档输出各种手工检索工具,在这一情况下,标识的确定就必须同时按照先组和后组两种方式进行。下面分别予以介绍。
标引词的主要用途之一,就是作为机检系统的主题标识,输入机检文档。叙词作为一种揭示文献主题内容的检索标识,具有可以通过组配,灵活检索的特点,是机检文档检索数据的重要组成部分,一般应根据机检系统的特点,进行处理。
为了充分发挥计算机灵活检索和处理能力,有效揭示文献主题,机检系统一般要求对文献主题采用深度标引,每篇文献的叙词数量通常较手检工具为多。国内机检系统中,一文献的标引词数量一般保持在5~15个叙词之间,同时采用上位词登录技术,即由计算机自动登录标引词的各级上位词,以便从上位词人手检索文献,提高检全率。由于标引词数量多,并且按照后组方式使用,为了避免错误组配关系,在提高检全率的同时提高检准率,应注意根据检索系统的特点和要求对标引词进行相应处理。根据计算机检索系统的特点,对机检词常见的处理包括:
(1) 加联号。通常是在检索标识后标上相应符号,一般为数字或字母,用来揭示主题概念之间的联系。目的是防止主题词之间可能出现的错误组配,例:“东亚金融危机和中国的经济发展”这一并列主题文献,如简单采用“金融危机”、“东亚”、“经济发展”、“中国”标引和检索,该资源除可以以“金融危机一东亚”或“经济发展一中国”检出外,还可以以“经济发展一东亚”、“金融危机一中国”检出。后者为该文献所没有的虚假内容。使用联号就可以避免出现上述问题。
在此情况下,检索时就可以根据联号是否相同,将有关的文献检出,排除主题标识之间虚假组配的可能。
(2) 加职号。职号的作用是用来明确该主题标识的关系意义,以便正确进行组配。使用职能符号一般应根据需要预先确定句法范畴和相应的符号。
(3) 根据输出需要确定标题。单纯供机检使用的标引词的处理相对简单,只要直接将主题标识及辅助符号输入系统就可以了;结合机读文档自动编制书本式索引或输出目录卡片的文献单位,一般还应同时为机编索引或手工目录确定标题,以便按规定的方式输出。(有关标题确定方法见下节)
总之,对机检词处理的目的,是为了根据检索系统特点能,必要时还可以利用计算机编制手工检索主题目录或索引采用的输人格式输入数据。降低检索误差,提高检索效
此外还应该严格根据系统
第二节 主题标引方法(3)
在使用叙词语言编制手工检索工具的情况下,一般根据手检工具的需要,对标引词进行处理,确定标题。下面对使用叙词语言确定标题的基本知识做一概要介绍。
(1) 标题的结构形式
①主标题。根据标引信息资源主题的不同情况,信息资源的标题可以由单个叙词构成,也可以由两个或多个叙词组配构成。由多个叙词组成的标题中,排在首位的叙词称为主标题。主标题是标题主要排检依据,是标题的检索入口。其余的词,均为副标题或称子标题。副标题是对主标题的修饰和限定,可以按其级别称为副标题、次副标题,也可以直接按其在标题中的次序,分别称为二级标题、三级标题、四级标题等。按照标题的结构组成,在采用叙词表进行标引时,一般包括下述标题形式:单一标题。亦称单级标题,即由一个叙词构成的主题标识。根据叙词的组成成分,又
可以分为:
1、单词标题 2、词组标题 3、带外文或标点等的标题 4、带限义词的标题 。
② 复合标题。亦称多级标题,即由两个或多个主题词按一定的次序组合在一起,并使用 一种组配符号连接的标题形式。
目前我国文献界在复合标题中使用的组配符号有三种:其一为冒号“:”,用于表示两个或多个交叉关系叙词之间的组配。其二为短横“一”,用于表示事物和相应部分、方面、操作等限定关系叙词之间的组配。其三为逗号,用于限定关系标题进行轮排时,对事物对象的限定,同时也用来标示起修饰作用的自然语言。
③ 复杂标题。指同时使用两种或多种组配符号的。
(2) 标题的级别及拟定
对于标题的级别及拟定方法,国内手检工具中大致有以下几种做法:
① 只采用单级标题。即不管一信息资源标引多少主题词,一律不使用组配标题形式,分 别按标引词建立单一标题。
② 采用二级标题。即允许采用组配形式,但只限于使用二级标题。如遇两级以上的复 合主题,一律分解成两级。
③ 采用三级以上标题。即允许根据揭示文献主题的需要,通过三个或三个以上叙词的 组配揭示文献。
其一,作好主标题的选择。主标题是标题的检索入口,规定着标题的排检位置。一般应选择具有独立检索意义的表示主体因素的叙词作主标题。在一标题中具有多个主体因素的叙词时,则一般应选择其中表示文献研究的对象、问题或现象的中心叙问作主标题,以其余叙词作副标题,从而对标题的数量进行控制。
其二,对叙词的引用次序作出规定。标题中叙词之间的排列次序,通常应按照主题词之间的关系进行,可以在确定主标题以后,应当根据其他叙词与主标题之间的依存关系加以排列。引用次序的确定,可以参考一定的通用引用次序进行。在我国,一般可依据国家标准中使用的分面公式,按主体因素、通用因素、空间因素、时间因素、文献类型因素的次序排列。必要时也可参考国外通用的引用次序。
其三,规定轮排模式。所谓轮排,是指将标题中每个有检索意义的叙词作为检索点,轮流排列在主标题的位置上,并对标题中的其他叙词作相应变动。轮排的目的,是以最经济的方式提供有效的检索入口。国内一般采取轮替法进行轮排,即依次将具有独立检索意义的叙词轮流排作主标题,标题中其他词的位置保持不变。
不具有独立检索意义,因此不作为主标题参加 在按照轮替法进行轮排的同时,还应注意保持相关主题概念之间的联系。一般情况下,使用“:”、“,”连接的主题词或说明语,在轮排过程中应同时随原连接的词移动。
此外,对联结主题的轮排,还应该在必要时对连接词作必要的调整,使其能准确反映主题关系(详见本章第三节)。
3.标引词的著
根据检索工具的不同特点,标引词分别采用相应的著录形式。
M(MAIN HEADING)——表示主标题,
Q(QUALIFIER)——表示副标题;
S(SUBQUALIFIER)--表示三级以上副标题。
在三级以上副标题中,又可以根据需要进一步分出根据上述规定,机编系统就可以M—Q—SA—SB—SC的次序自动生成复合标题: 在使用主、副标题符号时一般应注意:
① 如果一篇文献需要拟定几个标题,可以在标题符号后以数字对不同的标题加以区分
以相同的数字表示同一标题。例如:
M1——Q1一SAl—SBl一SCI
② 如一副标题为多个主标题共同使用,可在该主题词后同时使用几个符号,如下文例—
中的“结构设计”。
③ 如一主标题词可同时连接多个副标题,组成多个标题,该主题词后可同时加上几个符号。
④ 如一叙词可同时作主、副标题,则可同时使用不同标题符号。
⑤ 如一个标题后无副标题,可只标M,不标数码,表示无副标题。
下面举例说明机检词结合输出手检目录的系统,在采用上述规定时的处理特点。叙词后所有的符号,分别为主、副标题符号,每一例后还列出系统可自动生成的手检款目。
例一:新闸路地铁车站结构设计
[文摘]新闸路地铁车站是上海市地铁一号线路工程的中间站。为了综合开发利用地下及地面空间,站上拟建高层建筑。地铁车站既是地铁车站结构,又是地面结构的基础工程.采用地下连续墙承重的双层三跨箱型结构,论文论述了地下墙受力分析,地下墙、桩基、箱基组合式基础床系数K的取值问题,结构沉降及深基坑开挖引起地表沉降的估算方法。
[主题分析] 本文论述了地铁车站作为高层建筑基础工程时的结构设计问题,讨论了地下连续墙
结构、受力分析、取值问题及施工引起的地面沉降的估算方法。
[标题]
地下铁路一铁路车站一建筑设计:结构设计
高层建筑一基础(工程)一结构设计
箱形基础,双层三跨一地下连续墙一载荷分析
深基础:箱形基础一基础沉降
深基础:箱形基础一清除开挖一影响一地面沉降
(标引实例资料来源:《中国分类主题词表标引手册》标引词后的数字均为联号。)
第三节 主题标引规则(1)
一、主题标引的基本规则
要将文献主题概念转换成相应的标识,需要经过查表抽词,确定标识等步骤。抽词时,有时还必须根据概念构成特点进行分解转换,过程比较复杂。为了保证]的准确和一致,防止和减少各种可能出现的错误,在对文献主题概念进行转换时格遵守主题词标引的基本规则,包括查词规则、组配规则。
1.主题标引的查词规则
(1) 采用正式叙词标引。即用来标引文献主题概念的叙词必须是《汉表》中的正式叙词
其书写形式必须与词表中的词形一致。非叙词不得直接用来进行标引。
采用最专指的叙词标引。在词表收有多个相关叙词的情况下,应选取词表中与文献的主题概念相对应的最专指的叙词进行标引,而不得以该词的上位词或下位词进行标引,以免出现标引过宽或过窄的误差。
组配标引。当词表中没有相应专指叙词时,可选用词表中最接近、最直接关联的两个或两个以上的叙词进行组配标引。
(2).上位叙词标引。当词表中没有最专指的叙词,也无法以词表中最接近、最直接关联的叙词进行组配标引时,可选用上位叙词标引。
(3).增词标引。如待标引的主题概念为未收入词表的新概念,不适宜采用上述任何方法标引,同时本身又具有较大研究价值和检索意义时,可采用增词标引。增词标引一般包括下述情况:词表中明显漏收的主题概念的词。
组配标引在可能出现二义性结果时,被标引的概念可以考虑采用增词标引。
地名、人名、机构名、著作名等也可以在需要时直接用作新增主题词。
2.主题标引的组配规则
组配标引
交叉组配是指选用若干个具有交叉关系的叙词进行组配,表达一个复合的子概念常以符号“:”为组配标识
说明语限定组配。通常用于对事物作补充说明,表示事物的性质、特征等叙词作说明语,也可以使用自然语言作说明语。
联结限定组配。表示事物与具有联结关系的事物的组配。
为了保证在组配标引时尽可能取得一致,避免出现标引误差,在应用《汉表》进行组配标引时,一般应遵循下述组配规则:
(1) 叙词的组配必须是概念组配,而不是字面组配。参加组配的叙词之间必须符合一定的逻辑关系,而不是简单的字面分拆或语词组合。
(2) 叙词的组配应优先采用交叉组配,当不能用相应叙词进行交叉组配时,才选用限定组配。
(4) 叙词的组配必须选用与文献主题关系最密切、最邻近的叙词进行。
第三节 主题标引规则(2)
叙词的组配结果必须明确,具有单义性。凡有可能产生二义性组配的叙词,应通过明确词序或采用增词标引的方法处理,以免出现误差。。
对并列多主题文献,可采用按各个主题分组组配的方式,并以组配符号明确揭示主题词之间联系,以避免出现虚假或无意义的组配。
这样处理可以避免出现“洪水一华北平原”,“干旱一长江流域”等的虚假组配。按照规定的次序确定标题。当一个标题中的叙词同时涉及不同主题因素时,叙词的组配次序一般应按主体因素、通用因素、地区因素、时间因素、文献类型因素的次序确定。
当一个标题中的主题词同时出现多个属于主体因素的叙词时,一般可按叙词之间的关系,按对象、材料:,操作、工具的次序序列。按照检索工具的特点确定标引级别。标引的级别应根据手工检索工具的需要保持在三级以下,一般不超过五级。每种图书组成的标题数量一般应保持在四个以下。各种主题、文献类型的标与分类标引相同,主题标引的方法也是与文献的主题类型、写作与出版形式相联系的。
因此,要做好文献的主题标引,除必须遵循主题标引的基本规则外,还必须根据各种类型文献的特点进行。
下面根据国内目前采用的标引方法,分别对各种不同主题类型、写作与出版形式文献的标引方法做一概要介绍。
1.单主题、多主题信息资源的标引
(1)单主题信息资源只研究某一特定主题对象,可根据该信息资源研究的主题对象及成多主题信息资源同时研究两个或两个以上事物或对象,按照主题对象之间的关系,包括并列关系、从属关系等类型,一般可区别情况,依据所研究的主题对象进行分组
(2)多主题信息资源同时研究两个或两面个以上的事物或对象,按照主题对象之间的关系,包括并列关系、从属关系等类型,一般可区别情况,依据所研究的主题对象进行分组标引。
从属关系主题的图书应根据主题论述的情况进行,凡同时论述大主题和小主题的图书,应分别对论述主题分组标引。但如只论述小主题,未对大主题展开论述,则按单主题处理,只标引小主题。
2.简单主题、复合主题、联结主题文献的标引
(1) 简单主题文献可直接按文献论述对象,即事物、学科、现象等进行主题标引。
(2)复合主题的文献,应根据论述的对象和方面进行组配标引,必要时可以进行轮排 全面论述一事物对象的文献,仍按主题对象标引。
(3)联结主题文献是指研究两个或两个以上主题对象关系的文献类型,包括应用关系、比较关系、影响关系、因果关系等类型,一般应根据主题关系类型和收词情况进行主题标引,并应依据不同主题对象互为主、副标题进行轮排。具体标引规则如下:
应用关系主题的文献,一般应以应用到的主题作主标题,以应用的理论或方法为副标题进行组配标引,并加以轮排。
比较关系主题的文献,一般应以文献论述重点为主标题,以其他主题为副标题进行组配标引,并加以轮排。
影响或因果关系主题的文献,一般应以被影响或表示结果的主题作主标题原因的主题作副标题进行组配标引,并加以轮排。
表示主题之间相互关系的联结主题,如表示主题之间相互作用、差异等关系的联结主均以其重点论述的一方作主标题,以另一方作副标题,并进行轮排。
倾向关系主题的文献,指根据一定读者对象需要角度论述特定主题内容的文献以论述对象为主标题,以读者对象或论述角度为副标题进行组配标引。
涉及多个复杂主题的文献标引。则应按照主题类型和涉及的各个主题对象,分别进行组配标引
论及地区、时代文献的标引
3.指论及一地区或时代有关主题内容的文献。它们可以是论述一地区或时代某一方面情况,也可以是论述一地区或时代的几个方面或整个地理或历史的情况。这类文献,存在着首先从主题内容角度揭示,还是首先从地理或时代角度揭示的问题。应根据文献论述 的特点和检索系统的需要加以处理。
(1)在以一地区社会、自然全面情况为对象的概述性文献中,地区因素是中心因素,通常可将地区主题词作主标题标引,必要时还可以进行轮排。
(2)对论述一地区各专业领域内容对象的文献,通常可按通用分面公式,以主题内容作主标题,以地区主题词作副标题。
(3)为方便用户使用,在以地 区作副标题时,对地理概念大体采用两种处理办法:其一是直接复分法,即直接将文献论及的地区名标于主题名称之后;其二是间接复分法,即先标引国名、省名,再标引文献论及的具体地名。根据我国情况,国内直辖市、特别行政区、省会城市、单列市(如深圳等)可单独标引,其他具体地名均以省、自治区名等后标引;国外国以上地名、各国首都、国际著名城市等可直接标引,其余地名一般应于所在国家之后标引。
(4)对于涉及时代的文献,一般以内容对象为主标题,以表示时代的主题词为副标题进行标引。如文献涉及的时间有明确年代范围,可直接将年代标引在相应叙词之后。
(5)论述某一时代的历史或专门史著作,必要时可以使用表示时间因素的叙词作主标题进行轮排。
涉及地区、时代文献的处理方法,一般应结合文献部门的专业特点和检索需要确定。具体的文献单位可以根据本单位的情况,适当进行调整。例如:自然科学单位的检索系统,可规定国外地名一般只使用国名,但对本专业有关的地域名称,如测量地点、对研究直接相关的地理名称等,则要求直接标引。
4.传记文献的标引
传记是一种以人物生平活动为研究对象的文献类型,包括;自传、画传、评传、年谱等。这类文献一般同时涉及人物对象及其活动领域两方面,一般应根据文献的侧重进行标引。
(1) 以研究特定人物生平活动为主要内容的传记书籍,一般以人物名称和写作形式进行组配标引,以人物名称为主标题。
(2) 侧重从某一学科专业或历史事件角度研究或记载某一人物的文献,则应同时从人物名称及学科或事件角度进行组配标引。
(3) 多人合传,应视情况进行,人数不多时,可分别对各被传人进行分析标引;人数过多时一般只作综合标引,通常可结合涉及专业、地区、时代等进行。
5.文艺领域作品的主题标引
文艺领域包括两类文献,其一为以文艺为研究对象的文献;其二为文艺作品。对这两类不同性质文献,应根据其不同特点进行标引。其中,文艺作品是一种虚构作品,重在表达作者的观念和认识,同时也会对主题对象表达一些重要的信息。检索系统对文艺作品的标引经历了一个逐步变化的过程,早期一些系统一般不对文艺作品作主题标引 ;其后, 不少系统开始对文学作品从体裁、国别、时代的角度进行标引,同时对写实作品主题内容进行标引;90年代后,一些系统探索包括包括对其主题对象、环境(时间、地点、社会环境)、作者风格、观念、题材等 角度进行标引,这一情况仍在发展之中。
(1)以文艺为研究对象的文献是探索文艺规律的著作,包括文艺理论、文艺评论和文学史和艺术史。应按文献论述的内容对象加以标引。
(2)文艺作品不同于科学著作,一般均按作品听体裁、国别、时代、题材等进行标引。
(3)与特定人物、事件为对象的文学作品,除应从体裁、国别、时代标引外,一般还应同时从记载对象的角度进行标引,同时标明体裁。
(4)对于文艺何堪的儿童文学作品,为便于从儿童文学角度查找,一般呆以以“儿童文学”或有关的叙词为主标题进行标引。
(5)用作语言读物的文学作品,应按其用途,以表示所属语言的叙词作主题,与表示语言读物的叙词组配标引。
6、丛书、多卷书、论文集的主题标引
(1) 丛书的主题标引
对丛书主题标引的处理办法,大体上与分类标引的方法相同,分为集中和分散两种。对一次性刊行或有明确出版计划,内容上有密切联系的丛书,可以同时采用综合标引和分析标引的方式,即在以整套丛书为单位进行综合标引的同时,以每种单书为单位进行分析标引。综合标引时一般应标上表示编辑形式的主题词“丛书”,按单书标引时则不必揭示 其编辑出版形式。
(2) 多卷书的主题标引
对既有总书名,各卷又具有独立研究对象并有独立分书名的多卷书,一般应在对整部多卷书的主题作综合标引的同时,以各卷为单位进行分散标引。综合标引时应标上表示编辑出版形式的主题词“多卷书”。
对只有总书名,没有分册书名,或各分册没有独立研究对象的多卷书,则只以整部多为单位进行综合标引,标引时也不必标上“多卷书”这一主题词。
(3) 论文集的主题标引
论文集包括文集、全集、选集、会议录等,一般应以该书的内容对象进行整体标引,对其中的单篇著作不再进行分析标引。专门性的论文集可以以其学科对象与有关编辑形式的主题词,如“论文集”、“全集”、“选集”、“会议录”等组配标引;综合性的论文集则可以其
编辑形式作主标题,与表示国别、时代的主题词组配标引。
以特定个人著作为收录范围的文集,通常以其学科对象与相应编辑形式的主题词组配标引;对马、恩、列、斯、毛的著作一般应同时从著作论述对象和著作者两个方面加以标引;我国党的领导人的文集、选集、全集,可标引为“中国共产党一领袖一著作”,同时以著者名与文献形式的主题词组配标引:党的领导人的个别著作或专题著作,则仍按其主题内 容进行标引。
7、百科全书、年鉴、手册、词典的主题标引
(1)综合性的百科全书、年鉴、手册均分别以“百科全书”、“年鉴”家、地区名称及表示年代的主题词作副标题,年鉴并应标明具
(2)专科性百科全书、年鉴、手册,应从主题内容和编制形式两方面进行标引。
(3)普通语言词典,应以语言文种与词典类型两方面进行标引。一种语文的词典应以该语言文种的主题词作主标题,与表示词典类型的主题词进行组配标引。两种语文对照的词典,如属于中外文对照,一律以该外文的主题词作主标题,如属汉语和少数民族语文对照,一律以少数民族语文的主题词作主标题;如属两种外语对照,则应以被注释说明的语言文种的主题词作主标题,分别与词典类型的主题词组配标引,并采用并列复合词组简称的文字形式,如“英、汉”,“英、俄”等注明对照的文种。
(4)语言词典中的专门词典,如词表已收入该专门词典的叙词时则用相应的叙词和词典形式的叙词组配标引。
(5)专科词典,一般由学科对象、词典类型和文种三方面结合标引。通常以表示学科对象的主题词为主标题。其中,汉语词典可不标文种。各学科的名词术语汇编等,一
般均可按词典方法标引。
8、目录、索引的主题标引
(1)凡综合性目录、索引,应以相应的目录、索引主题词为主标题,以涉及的地区、年代作副标题。
(2)专科性目录、索引主要从主题内容和目录、索引两方面进行标引的主题词为主标题,以相应表示编制形式的主题词作副标题。
(3)专书索引可以以其内容对象作主标题,必要时也可 以以相应的专书名为主标题,与表示索
(4)产品目录,商品目录,金石目录,动、植物目录等应以反映对象的主题词作主标题,与表示目录形式的主题词组配标引。
9、特种文献和非书资料的主题标目
(1)标准、规程、专利文献的主题标引
标准、规程、专利文献一般应从主题对象、文献类型、国家地区三方面进行组配标引。以主题对象为主标题。其中凡已批准为国家标准或部颁标准的规程、规范,应按标准进行标引,未被批准为标准的,仍按规程、规范标引。
(2)科技报告、学位论文的主题标引
科技报告、学位论文等一般应在揭示其主题内容的同时,对其文献类型加以揭示。学位论文标引时,除应揭示其文献类型外,还应同时揭示其学位级别及高等学校或研究机构的名称。
(3)非书资料的主题标引
非书资料与印刷型文献一样,都是知识的载体。其差别主要是,其媒体形式不同,对内容的揭示手段有差异。主题标引时,应以主题内容为中心,同时对其载体形式加以揭示,以便用户使用时,可以对不同的媒体形式加以辨认。
10 关于网络伯息资源的主题标引
网络资源数量大、种类多、增长快,需要采用各种方式对其进行组织和处理。从OCLC协作编目系统推荐在主题标引中使用《国会标题表》、《医学主题词表》等可以看出,受控主题标引是对网络资源标引的手段之一。
网络信息资源的主题标引与传统文献的标引方法相同,一般在对该信息资源进行主题揭示的同时,揭示信息资源的类型,以便同时从资源类型的角度加以限制。
第四节 主题检索工具(1)
进行主题标引的目的是建立主题检索工具。主题检索工具按照其设备条件,可分为手检工具和机检系统。一般而言,手检主题工具包括主题目录和主题索引,大多采用先组方式,须根据检索需要在标引词的基础上确定标题;主题机检系统则通常采用后组方式,根据检索软件的要求,按一定的机读编目格式输入,供计算机检索使用。
一、手工主题检索工具
手检主题工具包括主题目录和主题索引,目录是一种以表达文献主题内容的语词为检索标识,字顺组织起来的检索系统。与分类检索系统相同,主题检索系统也是从内容角度揭示信息资源的,但由于两者采用的标识和组织方式的不同,它们的功能也存在着差异。与分类相比,主题检索工具的特点是通用性、动态性好,可直接从事物、对象或问题人手查找信息资源,是信息资源检索的重要检索工具。作为手工检索工具,主题目录或索引在使用叙词语言的情况下,多采用先组散组方式,在标引词的基础上确定标题,用于组织检索系统。
主题检索系统通常由主题款目、指导片、参照片组成。
主题款目是以表达信息资源内容的主题标识为标目的款目。主题目录中的主题款目通常以文献资源的描述款目为中心建立,在题名上方加上主题标识表示。一文献有时可
以有两个或多个主题款目。
1.主题索引中的主题款目,则是由所描述的主题及文献出处构成的一条记录。索引款目由标目、文献出处及附加信息组成。其中,标目是索引款目的排检依据,是用户检索的入口,起集中和揭示文献信息的作用。标目可以是单一标题,也可以是复合标题,有时还可以带说明语,有的标题词下还可有必要的限义词和注释等,对标题词作补充说明。出处项指明该主题文献所在的确切位置,通常为文献编号或文摘号,可用于在检索刊物中查阅文摘或选阅原文。作为一种以标题为中心的系统,一个标目后面往往可有多个文献号。
2.主题检索系统中的参照片的编制
参照的作用主要包括,①揭示标题之间的联系,便利相关资源的查找;②增加检索入口,指引读者从非规范主题词查找规范主题词;③从标题的各种轮排方式指向一种标题方式,减少款目编制数量,节省目录编制费用;④通过建立与分类检索系统等的参照,加强不同检索系统之间的联系;⑤说明目录编制的方法和规则,便利读者掌握使用。
主题检索系统的参照主要有三种形式:单纯参照、相关参照、一般参照。其特点如下:单纯参照。亦称见参照、直接参照,是一种由非标题指向标题或其他标识的参照。单纯参照片后不收入款目,指向的标题和其他标识后应收有相应主题内容的款目。包括:
a.依据词表中建立的用代关系,为同义词、近义词及组代词编制单纯参照,从非正式主题词指向正式主题词。例如:
b.根据标引中采用的上位标引法,组配标引法编制参照,从被上位标引,靠词标引所取代的主题词指向正式主题词。例如:
c.为倒置标题和各种轮排形式编制参照,从不使用的标题形式指向使用的标题例如:
d.根据与其他目录的联系,从特定标题指向分类目录或其他目录中的相应标这种方式可以避免在目录体系中对同一款目的重复编制,节省目录编制的费用。相关参照。亦称参见参照。指由一个标题指向另一个内容相关的标题的参照。相关参照揭示标题之间的等级关系和相关关系两种类型,目的是揭示标题之间的联系,便利用户进行扩检和缩检,提高查全率和查准率。其表示形式为:
相关参照的建立包括以下情况:
a依据词表中的从属关系,从上位概念的标题参见下位概念的标题。作从下位标题向上位标题的反向参照。
b.依据词表中的参项关系,为参项词设置参照。
c根据复合标题与相关标题之间的联系适当编制相关参照。这类参照可参《分类号一主题词对应表》中一类目对应的标题中选取;也可由有经验的编目人员据实用需要自行增补。例如:
一般参照。亦称说明参照。通常是关于查找方法的指示或编制规则的说明。通常用于主题目录的编制。
一般参照的使用情况包括:
a对多条共同性的参照加以概括性说明,节省参照篇幅。如在标题“图书馆”下注明“参见各种类型图书馆,如国家图书馆,公共图书馆,高等院校图书馆,专业图书馆等”。
b.说明某个主题词在主题目录中的使用方法。如在主题词“设计”下注明“本词只作副标题使用。如电子计算机一设计”。
c.说明特殊的编排方法。如在标题?埃及史”下注明,“以下按纪年排”。
d.说明该内容文献主题目录未收录,应查分类目录或其他相应目录。
为了节省篇幅,检索刊物的主题索引中参照编制一般较少。有的索引采用在前面统印制词表的方式供用户进行相关词的查找。 第四节 主题检索工具(2)
3.主题检索工具中的助检标志 。
助检标志是主题检索工具为了方便用户使用而设置的一些标志。主题目录中助检标志包括标题导片和字顺目录常用的字母和单字的导卡。
标题指导片是指示一组相同主题图书的标志,著录项目 语拼音、标题注释项和参照项等。根据检索系统揭示的需要卡和多级导卡两种。下面为单级标题导卡的著录实例:
多级标题导卡的制作有两种形式:其一,将主、副标题同列在一张导卡上:其二,将主、副标题分级著录,以不同导耳或色彩加以区别。
标题导卡的设置,应根据文献款目数量而定。一级标题导卡可适当多设;二级或三级标题导卡,通常可在前一级标题下款目数量超过一定数量时增设。为便于根据情况,指明款目范围,标题导卡制作时也可适当使用字母或单字导卡。原则上,主题目录并不为款目中出现的每一种复合主题设置标题指导卡,否则会出现导卡林立的局面。
字母和单字导卡的制作及设置方法与其他字顺目录相同,需要时也可适当增设词汇导卡。
索引使用的一些助检标志,包括:
① 页头标题。即在每一页的顶部注明该页第一和最后节,指明该页索引款目的起讫范围,便利用户检索。
② 字母标志。注明起始字母,将索引划分为若干区段,指引检索。
此外,不少索引还往往通过设置主题词首字检字表,及以不同字体排印不同级别标目等方式进行编制,以便利检索。
4.主题幢索工具的排列
中文的字顺排序,有拼音,笔画笔型排检为主,必要时也结合其他排列形式。其排列方法如下:
(1) 标题字顺排列法
四角号码等多种排法,主题目录目前大多以拼音
一般先按标题字顺排,再在同一标题下确定款目通常先按主标题字顺排序,然后再在主标题下排列副标题和次副标题。中文标题的汉语拼音排序,目前主要有两种排列法:其一为逐词排列法。即以
单词为排列单位,一词中前部单词成分相同时,再按其后的文字排。这种方法可以按单词集中主题词,但不能集中相同汉字的条目。其二为逐字排列法。即以标题中单个汉字为单位进行排比,同音节字依四声区分,音调相同者再依汉字笔画和起笔排列。这种排列方法结合汉字的音和形的特点,可以将具有相同汉字的标题词集中,符合我国读者查找习惯。下面为逐词排列法与逐字排列法的比较:
(2)同主标题下的排列
①标题中辅助符号的排列 按叙词标引规则规定,标题中各种符号的排列顺序依次为:
— 短横 : 冒号 , 逗号 .圆点 《》 书目号 ()括号
②同主标题后的特殊排列法
同一主标题下的副标题的排列,除采用字顺排列法,也可根据情况按标题特征之间关系排。这种方法一般用于特征之间关系比较明确的副标题之间。如将地质时代按发展顺序排,将历史的副标题按编年次序排等。对这类情况应予控制,不宜太多,并应在主标题下加以必要说明。
③相同标题下的款目排列法主要有以下几种方法
址号法。即按一文献的索书号或直接按书次号的顺序排
时序法。即按文献出版年代或分编次序,亦即登录号排。
字顺法。即按文献题名或责任者的名称排列。
以上三种排列方法中,字顺法虽然与标题的排列方式一致,但必须逐一排比,要求操作者对拼音十分熟练,排序速度慢,不易坚持;前两种排序方法则均易于操作,其中,尤其是址号法次序明确,排检迅速,使用较为方便。
二,主题检索系统
1、主题机检系统的特点
主题机检系统是以主题标识为检索依据的机检系统,是计算机检索系统的重要组成部分。此处主要指以受控主题标识为检索词的机检系统。比较典型的这类受控主题系统主要包括:文献单位以图书为对象的目录系统,以论文为对象的检索系统等。这类系统中,主题检索功能往往是系统整体功能的一个重要部分。主题机检系统以计算机的数据处理能力与主题检索途径结合,具有手工检索系统无
可比拟的优点,主要表现在:
① 检索灵活。可利用计算机的巨大数据处理能力,以后组方式,在检索阶段通过主题词的组配,自由扩大或缩小检索范围,满足各种检索需要。
② 检索方式多样。检索系统可根据需要设置多种检索方式,如布尔逻辑检索、截词检索、利用机读词表检索以及采用联号、职号、加权等各种检索手段,提高对文献及各种数据的检索能力。
③ 获取信息充分。利用计算机一次输入多次输出的特点,可以迅速获取数据库系统中存储的有关文献的全部信息,包括文献的地址、题录、文摘,甚至原文。
④ 获取信息便利。可以通过系统迅速查找有关检索对象的全部资料,而不必如手检索引那样转查找;同时,不仅可以使用当地的文献,而且可以通过计算机网络进行远程检索。
⑤ 获取信息及时。主题机检系统不仅便于进行回溯检索,而且可以利用计算机系统便于更新的特点,及时检出最新资料。
⑥ 便于检索结果的获取。主题机检系统的检索结果等各种形式输出,比手工方便。可根据需要加以打印、复制或套录
2.主题机检系统的结构
由于机检系统的优点,随着计算机技术和通讯技术的发展,计算机检索系统的研制和使用受到广泛重视,各国都建立了不少功能完备、技术先进的计算机情报检索系统。80年代以来,我国文献情报界经过多年努力,逐步研制了一大批比较成熟的通用数据库软件,建立起了多种功能完备的数据库系统。这些数据库系统通常是由各种功能的子系统结合而成的多功能的一体化系统。不同系统因其设计思想和功能要求的不同,其总体结构和组成模块往往各有不同,但多数包括以下系统:建库子系统、输入输出子系统、情报检索子系统、词表及各种规范文档管理子系统、编辑出版子系统等,通过相应的管理软件将其联结成一体。
数据库系统的中心,是由顺序文档、倒排文档组成的数据集合。其中,顺序文档又称文献档,以规范格式收人文献的详细信息,以及包括主题标识在内的各种检索标识。倒排档则是分别以记录中的各种可检字段的标识为中心,按各种标识的一定顺序建立的文档。每个标识后列有该标识的所有文献登录号,类似印刷型检索工具中的辅助索引,可以从标识出发检出相应文献。不同可检字段的标识组成相应的各种倒排档。其中,主题倒排档按字顺列出全部主题词,可以从主题词出发,利用机检系统提供的形式进行组配检索。这类系统一般还根据机检系统压缩存储的需要,建立相应的顺序文档索引和倒排文档索引。前者从文献号指向磁盘中的起始地址;后者亦称词典,是检索词的集合,从检索词指向对应的文献集合号,通过相应的软件配置,提供
检索操作。
第四节 主题检索工具(3)
3.主题检索系统的功能设置
目前的机检系统,基本上都是以一定的格式输入数据,通过专用软件对其进行各种操作的。因此,如何根据系统用户的使用需要,对系统的功能进行设置,是机检系统的关键。
从目前使用的各种机检系统的情况看,主题检索一般主要具有以下功能:
(1) 主题词检索功能。即通过输入主题词,与系统中信息资源匹配,直接输出命中的检索对象;显示命中篇数,并有层次地显示有关文献信息,包括:题录、文摘或内容提要等;
(2) 入口词检索功能。可以在输入与主题词具有用代关系的词后检索结果。但目前主题检索系统的人口词一般不够丰富,这—功能还有待进一步改善。
(3) 组配检索功能。可以利用逻辑组配符号,进行主题词的布尔逻辑检索,用于扩大或者缩小检索范围,改进检索效果。
(4) 综合查找功能。不仅可以进行主题词之间的组配检索,而且可以与其他描述数据结合进行综合查找,提高系统的检准率。
例如,图10—1即为中国地质大学图书馆联机目录“检索”提供的综合查找界面,可以同时结合主题、著者、题名,选择各种逻辑组配关系进行检索查找。浏览功能。可以在输人主题词后输出与该主题词有关的所有组配形式,供用户选择使用。例如下表即为在地大图书馆联机检索系统输入“计算机”一词后,系统根据其浏览功能显示的相关标题。
用户可以根据这一显示,选择对应的标题进行检索。词典浏览功能。系统备有供浏览的词表,可以通过输人字母,显示词汇表,供用户检索时参考,降低选词的难度。限制范围检索。即可以根据需要,对检索的文献对象、语言、日期等进行限定,提高查准率。
排序显示功能。即根据需要对输出结果进行排列。排序规则一栏,即为规定检索结果排列方法的规定,共有按作者、主题、题名、出版年顺序、反出版年顺序等多种排列方式。下面即为在输入“主题法”一词后,按反出版年顺序排列的检索结果。但该系统只能对200条以内的检索结果进行排列。
(9) 结合联号、职号检索。合使用,提高检准率。
(10) 输出手工检索工具。
一般为以论文为检索对象的专业数据库,通过辅助符号的结相对而言,使用职号辅助检索的系统较少。
包括输出书本式主题索引或卡片式主题目录等产品,供手工此外,不少系统还具有截词检索功能,可保存多次检索结果,并对其进行再检索等多种功能;统计功能,包括:统计主题检索系统中所用主题词数量及主题标引深度、统计主题词、自由词的标引频率,进行检索词的频率统计,进行机编索引有关数据的统计,如款目数量、标引深度等的统计等。
notes: 建立机检系统应注意的问题
首先,应做好建立主题机检系统的组织工作。
其次,重视主题数据的输人工作。
其三,做好对主题检索系统的维护和改进工作。
排序显示功能。即根据需要对输出结果进行排列。排序规则一栏,即为规定检索结果排列方法的规定,共有按作者、主题、题名、出版年顺序、反出版年顺序等多种排列方式。下面即为在输入“主题法”一词后,按反出版年顺序排列的检索结果。但该系统只能对200条以内的检索结果进行排列。
(9) 结合联号、职号检索。合使用,提高检准率。
(10) 输出手工检索工具。
一般为以论文为检索对象的专业数据库,通过辅助符号的结相对而言,使用职号辅助检索的系统较少。
包括输出书本式主题索引或卡片式主题目录等产品,供手工此外,不少系统还具有截词检索功能,可保存多次检索结果,并对其进行再检索等多种功能;统计功能,包括:统计主题检索系统中所用主题词数量及主题标引深度、统计主题词、自由词的标引频率,进行检索词的频率统计,进行机编索引有关数据的统计,如款目数量、标引深度等的统计等。
notes: 建立机检系统应注意的问题
首先,应做好建立主题机检系统的组织工作。
其次,重视主题数据的输人工作。
其三,做好对主题检索系统的维护和改进工作。
编辑推荐:
下载Word文档
温馨提示:因考试政策、内容不断变化与调整,长理培训网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准! (责任编辑:长理培训)
点击加载更多评论>>