华久范文论文网

地方研究文献数据库主题检索初探

华久范文论文网 http://www.bjsshhwl.cn 2019-10-04 13:40 出处:网络 编辑:







一、地方研究文献数据库的数。据源


地方研究文献数据库是中文文献信息资源数字化的重要组成部分。地。方研究文献是指本地与外。地出版的某一地域或区域的内容的文献,建立地方研究文献数据库是为了使用。户全面了解某一地域或区域的社会生活、经济、文化等信息,便于用户进行地方研究。


地方研究文献数据库的数据源主要是:


1.资料性文献。例如地方志、文史资料等,史料、年鉴、统计资料、政府出版物(白皮书、蓝皮书等)。在我国,历代纂修的各地区资料性文献很丰富,广西省1988年出版的《广西方志提要》,收录1950年以前出版。志250种。广东省1950年以前历代编修的地方志达800多种, 80年代以来新修省、市、县地方志已出版1000多种,规划。出版专业性。地方志5000多种。


2.论文、论著包括地方研究丛。书、丛编、报刊上发表的论文和会议论文、调研报告、论文集等。例如有关南海及南海诸。岛的《南海。海区综合调查研究报。告》、《南海海洋生物研究论文集》,据不完全统计, 1993-1994年南海海洋科学方面的70多篇论。文,发表在。20多种期刊上。此类文献很多是全国或。省市。社会科学研究项目的科研成果,为领导决策提供理论依据,为社会主义建设服务。例如,《广西社会经济情势考察研究报告集》一书是国务院下达的《西南地区国土资源综合考察和发展研究》项目中的广西部分研究成果。广西壮族自治区制。订广西十年规划和“八五”计划时,采纳了《广西对东南亚开放战略研究》报告中提出的一些对策和建议。


3.政策性文献和法令法规例如,地方性党政会议及文件,领导人讲话、文章等,地方法令法规也可在此范畴内。这是发展地方经济的重要政策法令依据,是重要文献类型,一。般全文收入。


4.新闻媒介的消息报导随着地方报刊的种数与版面激增,中央和地方新闻媒介大量报导各地的各类消息,例如《广。州日报》设立珠江三角洲的专版,《南方日报》设立广。州的专版。此。类信息内容广泛,时间性强,及时报导要闻以及地方不同阶段的热门话题。


二、地方研究文献的主题


地方研究文献的主题与文献的类型、文献的。内容、数据库收录范围及库容量等均有密切关系。


地方研究文献的类型多。样,信息量大,文献的主题包含历代社会的内容,更多的是反映当代社会生活的各方面,与学科(或专业性)文献以及新闻信息相比较,其主题范围更广泛,而且年代更。久远。另一特点,不同地区不同时期社会生活中的热点有异,文献内容即论述、报导。的问题有。较强时效性,有的信息的生命力也有时间限制。例如,香港新机场建设和运营之初,引起社会极大关注,一个月内。香港出版的报章杂志报。导有关新机场的消息与评论数百条,现在这方面的报导就很少。


地方。研究文献数据库既有书目数据库(数据形式为书目、索引、文摘),也有全文数据库,而且全文数据库和多媒体技术发展很快,文献信息资源数字化技术的发展,使数据库建库方式,同一数据库中数据的形式等均发生变化。地方研。究文献数据库应比较全面地反映该地区。社会的发展,包括历代政治、经济、文化教育、科学技术,自然现象、历史事件、地理及名胜古迹、风土人情以及机构、人物等。数据形式包括二次文献、全文以及图像(包括地图等)、音像。用户可按需要查阅、下载或打印数据库中某一主题的全部文献。建库方式。的变化,既可从某一文献部门自建库,也可联合建库,甚至跨。地区、跨国。合作建库。


文献资源数字化建设,文献数据库建库技术的发展,以及用户文献检索的需求的变化,对检索语言、文献主题的处理技术以及MARC格式等提出了更高的要求。海量文献、建库速度与质量的提高,要求。录入和主题处理技术有较大的突破。目前汉字录入和扫描技术的进步,录入速度大大加快。但主题标引已。成为建库的“瓶颈”,加上主题表编。制与管理技术的滞后,直接影响建库的速度和质量,难于满足文献检索的需要。为此,张琪玉、侯汉清、张涵等国内著名专家和同行都在探讨解决的办法,提出了一系列建议,例如大量编制自然语言词表;设计。分类表——叙词表转换系统,实现网络环境下情报检索语言兼容互换;利用主题表开发研制自动标引检索系统,实现自动标引等。这些建议。都是有益的探索,对于地方研究文献数据库的建库技术的改进和提高有重要参考价值。


笔者从事地方研究文献数据库建库工作多年,结合建库实践提出一点不成熟的看法。


三、地方研究文献主题处理技术的改进措施


文献主题的处理技术可分为两部分:一是主题标引工作;二是词表的编制与管理。


1.主题标引工作


目前的文献主题标引工作人为因素太多。首先是标引规则的限制,几乎每个文献数据库都制订主题标引规则,内容包括:选用的信息和标引的内容范围;标引深度(标引多少主题词,主题词的汉字数目限制等);标引词的选择,主题标引方式(自由标引还是选用主题表);对文献主题采用整体标引或分析标引;标引词的著录方式;不同类型或题材、体裁文献的标引规则;人名、地。名、时间因素等有关规定。……为了保证同一主题标引一致性,规。则的制订尽量详细具体。这样一来,标引人员工作时受到很大制约,需熟记标引规则并按此处理文献主题。标引是为了检索,然而如果表达文献内容远远超过标。引规则的规定(例如规定15个主题词),不但造成标引的困难,而且主题或标引词选取不当将影响文献的检索利用。


其次是标引人员对文献内容理解及主题分析等方面的限制,标引规则要求标引人员主题分析和给标引词等。均应考虑用。户的检索需要和检索习惯。事实。上没有一个标引人员能够全面了解用户的检索兴趣和要求,更无法预计将来用户的检索兴趣和要求。例如文献中标引人员可能认为某一内容不是中心内容,论述或研究的主要问题不进行标引,可是这部分内容对于某些用户却十分重要,在历史研究或历史人物研究等方面,往。往根据文献中的不显眼的线索(几句话或一张照片)溯根寻源,得出意想不到的收获。


第三是主题的描述,由于主题。表的使用和标引规则(特别是组配规则等)的制订,描述主题的词语与文献使用的语言、检索。者使用的词语。往。往不一致,在同义词和复合概念的。表达方面尤为突出。当前文献量激增,文献主题及用词。变化较大,增加了标引工作的难度,影响主题标引的速度和准确程度。


因此,主。题标引工作的改进。势在必行。对于地方研究文献数据库来源,全文检索本身可自动抽词,二次文献库也可采用自动。(或半自动)抽词与词表调控相结合的方式,标引时不硬性规定主题或主题词数量,而是视文献中具有检索意义的内容。所谓词表调控,主要是语义控制和分词的人工干预。


2.词表的编制与管理


检索词和标引词的一致,同义词的规范,以及主。题的扩检功能是文献数据库检索效率的重要保证。从这个角度考虑,词。表对于地方研究文献数据库仍是十分重要的。然而目前。词表的编制和管理技术已远远满足不了建库的要求,必须进行改进。


①改变词表内容滞后于文献主题发展的状况


词表的编制到出版使用需要一段时间,在我国词表的修订起码经过三。五年时间,而文献内容随着社会发展,学术研究的进步变化很大。笔者1992年赴香港进行文献研究及编制港澳研究主题表达四个月,利用80年代至1992年香港报纸杂志收入主题词3000多个,以及。数以千计的人名、地名等专有名词。经过检验(词频统计),该表基本能满足港澳研究文献主题标引的需要。然而在建港澳。研究数据库过程中,经过三年左右,新增主题词达2000个,表中部分主题词则甚少使用,说明香港、澳门社会发展对文献主题的影响。因此。需及时对主题词表进行调整,提高词表的即时。性。


主题词的增删调整可应用统计方法加上人工干预。首先应统计主题词的使用频率,同时考虑时间因素,因为每一地区都有时效性很强的社会现象或。信息,有的信息生命力很弱,主题标引用词的时效性也相应很低。


②词表管理技术主要是语义控制,例如全称与简称、外来语与中译名、标点符号的。使用、同义词和上下位概念的处理等。词表管理应有专人。负责。笔者对港澳研究主题词表的编制过程中,特别对同义词和英汉对照的处理进行大量工。作,由于港澳方言特殊化,语词规范显得特别重要。


③词表结构的改进,词表中相当部分的主题词比较稳定,这部分词应作为第一层次(第一级)的词,不需经常调整,对于有一定规模的数据。库,第一层次的词比较容易确定,应作为规范化词语,第二层次(第二级)的词是有可能调整的词,词表管理人员应及时对这一层次的词进行技术处理,例如与第一层次的词作同义词对应,或上下位属的显示等。


地方研究文献数据库的建设,词表(包括标引技术)、检索软件和索。引是三个重。要因素,其中文献主题的处理技术对文献检索影响尤为突出。许多技术问题尚待改进。


〔出处〕 一代宗师——纪念刘国钧先生百年诞辰学术论文集


0

精彩评论

暂无评论...
换一张
取 消