2018对于语义网的图书馆统一检索平台研究
摘 要:近几年来,各高校图书馆都纷纷建设统一检索平台,比如上海交通大学的思源探索,北京大学的未名学术搜索等,都试图通过统一检索平台给读者带来知识服务。但这些检索平台还未能解决输入关键词的语义联想以及检索平台的元数据更新问题,这也会产生很多实际问题。为了解决这些问题,就必须要在统一检索平台中引入语义网的相关技术,从而在细节上完善统一检索平台,真正为读者提供一站式的检索平台。关键词:语义网;元数据;知识服务
近几年来,高校图书馆的馆藏资源有了迅猛的发展,包括数字资源和纸质资源都增长迅速,为了能让读者更好地了解图书馆的馆藏资源,让馆藏资源更好地为读者服务,各高校图书馆纷纷建立自己的统一检索平台,把相关馆藏资源进行整合,试图让不熟悉图书馆馆藏资源的读者只要通过统一检索平台就能方便地利用好图书馆的馆藏资源,同时也提高了数据库的利用率,但各高校在建设统一检索平台及使用过程中出现了很多问题和困惑。例如:
(1)当前社会的信息量呈几何级数增长,跨专业和跨学科的信息量也增长迅速,这对高校图书馆元数据的归类提出了更高的要求,信息过载现象造成了高校图书馆元数据整理的难度。
(2)各高校图书馆都在建设统一检索平台,在这个过程中碰到的最大问题是如何对各数据库的元数据进行有效整合。统一检索平台建设的关键在于是否支持读者输入的关键词的有效联想,例如:读者输入金融法关键词,统一检索平台是否能将此关键词进行分解,从词的内涵和外延入手,联想出与金融法领域相关的信息,并能反馈出读者所需要的信息。或者是否能从人工输入改成运用语义网技术,通过一次输入金融法关键词,让计算机自动识别出读者的意图,然后通过计算机智能的手段来加以识别,这样也就解决了读者查不全和查不准的问题。或者统一检索平台能对读者注册信息进行智能分析,那么读者完成登录后,计算机即可将读者的身份信息进行分析,将读者的研究领域和研究偏好与读者输入的关键词进行合并检索,以便让每一位读者都能迅速检索到所需要的信息,但这一切的实现都离不开语义网的应用以及元数据的整理。通过基于语义网的元数据整理,有助于统一检索平台更加人性化地为读者提供良好的服务,也能更有效地将图书馆的馆藏资源揭示给读者,让读者更充分地利用好图书馆的相关资源。
(3)在高校图书馆中,元数据的统一规范有助于实现图书馆联盟之间的信息资源共享,很难想象如果CALIS(中国高等教育文献保证系统)不将各图书馆的编目数据进行规范,那么机构知识库将如何实现,或许只能是空中楼阁。
(4)信息载体形式日益复杂,信息检索的方式也向多样化发展,而简单的元数据已经无法描述数据的多样化特征,也要求对图书馆元数据进行扩展,以满足信息检索的需要。
鉴于以上问题,如果要全面描述数据的特征则需要引入语义网相关技术,对图书馆元数据进行扩展,才能满足读者对信息检索多样性的需求,为图书馆真正应用语义网奠定基础,那么图书馆如何运用语义网真正改善统一检索平台的性能,则是我们研究的重点。
1 语义网相关概念简介
互联网之父Tim Berners-Lee首次提出了语义网(Semantic Web)的概念、技术路线和基本思想,并给出了定义。目前语义 网用到的技术主要是3种:XML,RDF和Ontology。 (1)XML(eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种
数据类型与校验机制,使其成为语义网的关键技术之一。 (2)RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由3个部分组成:RDF Data Model,RDF Schema和RDF Syntax。
(3)Ontology(本体或本体论),原本是一个哲学上的概念,用于研究客观世界本质。目前Ontology已经被广泛应用于包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多领域。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即机器可理解。本体的最终目标是精确地表示那些隐含(或不明确的)信息。
2 语义网在法律信息资源统一检索方面的应用
语义网应用于信息检索的关键在于将图书馆有关馆藏资源进行整理,将原来处于信息孤岛的文献用学科分类串连起来,从而形成以知识单元为基础的语义网,从对文献信息的描述转向对知识的描述,显性知识整合体现了图书馆知识组织由表及里的发展过程,最终形成学科语义网,只有这样,才能完善图书馆的统一检索平台。下面以法律信息检索为例来详细介绍语义网在法律信息检索方面的应用。
2.1法律信息资源元数据模型的定义
首先要从操作互联、表示互联、内容互联3个层次来对法律信息进行语义标注,建立法律信息资源的多维语义共享模型。其平台的基本模型图如图1所示。
然后运用以上模型建立法律资源信息描述,资源信息描述包括资源的外在元信息描述以及资源内容描述,从而初步形成法律资源信息在不同知识协作过程中的结构关系,即协作上下文关系描述。法律信息资源包括法律公文(含司法文书)、法律、法规、司法解释、法律案例、判例、司法证据以及相关的声音、视频、图像等多媒体资料,根据DC元数据标准,我们定义了法律信息资源表示规范本体LIRSI(Legal Information Resource Standard on the Internet),其中法律信息资源元数据定义见表1。
2.2 法律信息资源内容本体建设
法律信息资源内容本体建设按照学科分类进行组织和辨识,学科知识点间的关系主要有子类(或称为被包含)关系和父类(或称为包含)关系两种。从面向对象的角度讲,以前仅是单重继承,现在出现了多重继承关系,但学科内容间的二元分类关系仍然是子类或父类关系。因此,在结合语义查询的法律信息检索中,为了获取准确全面的资源信息,必须对这些不同的关系进行考虑,设计相应语义检索策略。在这里主要采用了我国学科分类与代码国家标准GB/T 13745-2009,同时结合中图分类法第五版等分类规范进行综合。
页:
[1]