您的位置: turnitin查重官网> 图书馆 >> 图书馆管理 >试议外文面向外文科技信息知识组织系统建设思路

试议外文面向外文科技信息知识组织系统建设思路

收藏本文 2024-01-28 点赞:7626 浏览:24386 作者:网友投稿原创标记本站原创

  • 摘 要:为了实现海量外文科技文献信息的知识组织,促进文献信息内容的知识关联和知识发现,国家科技文献信息中心组织实施了“面向外文科技文献信息的知识组织体系建设和示范应用”国家科技支撑计划项目,提出构建以内容建设为核心,加工协作和开放怎么写作平台为依托,以自动处理智能检索和知识怎么写作应用为基础的知识组织体系建设和示范应用。论文在系统分析现行知识组织建设的4种模式可供借鉴特点,说明了该项目的目标、主要建设内容,最后总结信息组织基础设施建设中的难点。
    关键词:知识组织体系 叙词表 本体
    1003-6938(2013)01-0002-06
    1 导论
    信息过载是网络时代面临的一个重要问题。近些年来西方发达国家、组织、企业(如欧盟、英国医学图书馆、联合国粮农组织等)纷纷开展信息组织开放应用的研发项目,来推动信息建设基础平台的创新性实践和技术改善,如英国医学图书馆建设的统一医学语言系统(Unified Medical Language System,UMLS),谷歌收购了语义搜索公司Metaweb,采用其主打产品Freebase——大规模的开放结构化信息数据库,来推出知识地图怎么写作。我国在“十一五”期间,在国家层面推进了1.7万台大型科学仪器设备(单台套原值50万元以上)、105个野外科学观测研究台站,135万份自然资源实物、970万号标本、4000余种标准物质,22万种科技图书、6万种科技期刊、138万余条标准和技术法规、41万项科技成果信息,以及160TB的科学数据等大量科技资源的整合、开放与共享。
    面对海量的信息,如何从传统图书馆基于文献知识组织方法,向适应计算机海量信息处理基于概念单元或知识单元方向发展,如何从资源链接的整合,向提供深入知识内容的整合,成为了我国在“十二五”期间信息资源建设的一项重要任务。

    源于:论文大纲怎么写www.udooo.com

    因此由国家科技文献信息中心牵头,组织实施了国家科技支撑计划“面向外文科技文献信息的知识组织体系建设和示范应用”项目,来构建我国面向外文科技文献的知识组织体系,以支持信息揭示、组织和发现。本文通过知识组织建设模式的现状分析,论述面向外文科技文献信息的知识组织体系建设的目标和主要内容,并对信息组织基础设施建设中存在的难点进行探讨。

    2 知识组织建设模式分析

    通过大量的跟踪调研和凝练,可以把西方发达国家或组织推进知识组织实践应用归纳为四种模式:基于传统知识组织体系关联的语义网络模式、基于传统知识组织体系整合抽取的本体仓库模式、基于语义网的参考网络模式和本体网络模式。

    2.1 基于传统知识组织体系关联扩展的语义网络模式

    UMLS (Unified Medical Language System)是英国国家医学图书馆建立的关于生物医学和健康的知识组织体系,是基于传统知识组织体系关联扩展建设语义网络模式的典型代表。UMLS共有三个知识源数据库,它们是Metathesaurus、语义网络(Semantic Network)和专家词典(SPECIALIST lexicon)。Metathesaurus是集成了各种叙词表、分类表、编码集、用于病人护理的可控词汇表、健康怎么写作表、公共健康统计、生物医学文献目录和索引等基础医学、临床医学和健康怎么写作的知识组织体系。Metathesaurus通过概念来组织,其目的是将同一概念的不同名称和形式连接在一起,标识不同概念之间的关系。每个概念都分配了至少一个语义网络的语义类型,这样保证了Metathesaurus中的所有概念在语义网络中相对一致的分类。语义网络的目的是提供Metathesaurus中所有概念的统一分类和一系列概念之间的关系。语义网络由两部分组成:①一组较为宽泛的主题类目,也称语义类型;②一组语义类型之间的关系,或称语义关系。专家词典是NLM建立的三个知识源数据库之一,是UMLS项目的组成部分。专家词典的作用是为自然语言处理系统提供词汇信息。专家词典的词汇包括通用英语词汇和生物医学专业词汇。UMLS试图强大多语言词汇库,用于多种类型的信息系统,如病例、科学文献、指引和公共健康数据,从而在读者查询请求和资源之间建立概念上的关联,在具有相同知识内容的资源之间建立关联。

    2.2 基于传统知识组织体系整合抽取的本体仓库模式

    该模式的典型代表是联合国联农组织发起的FOS项目,旨在通过创建、整合和利用本体,来加强渔业信息系统的信息整合和语义互操作能力。FOS项目整合的资源包括:①OneFish:一个渔业项目的门户,采用等级主题树方式对信息进行组织,大约有超过1800个主题,主题含有简短的摘要、标识符、相关联的材料,如文件、网站、元数据。②AGROVOC叙词表:包含大约2000个渔业的叙词和16000相关的扩展词。③AA叙词表:超过6000个叙词。④FIGIS:一个整合渔业信息的全球化网络,其采用参考表来组织资源,主要包括水生物种、地理对象、水生资源、海洋渔业、渔业技术,大约有300个顶级概念,向下分成4级,共含有30000个资源对象,并能支持多语种互操作。FOS希望设计出一个全面的本体参考模型,以满足:是(部分是)以领域为基础本体,能分享规范的KOS;足够的灵活性,能在同一背景下包括不同的观点或者视角;聚焦在渔业领域的核心推理框架。FOS建立一个多层级的本体仓库来整合资源,主要包括三层内容:
    顶层本体或称为基础本体,用来表示通用一般性的概念。FOS采用了WonderWeb European项目建立DOCLCE本体模型作为基础,DOCLCE分为三个基本的大类,即:持久性和临时性;品质和品质属性及抽象概念。并采用了乘法的方式来扩展下位类。
    核心本体是在顶层本体的基础上,结合本体描述与情景的原理(根据情景的作用、任务、参数、状态来具体化说明)来构建了核心本体。将FOS需要整合的资源按照ODP的本体描述模型转化成术语数据库,提取术语数据库顶层概念,保留TDB框架,专家精简以及采用其他本体设计模型[3]。最终,在AA的1600个顶级类、AGROVOC的83个顶级类和FIGIS的约400个顶级类中选取了10%作为核心本体。

    摘自:本科毕业论文致谢www.udooo.com

    源于:毕业设计论文www.udooo.com

    本体生命周期模型是表明本体建设者在本体网络实施过程中需要开展的活动和遵循顺序,主要有两种:瀑布模型和迭代模型。瀑布模型主要应用于建设周期短、需求具体、小而理解充分的领域,它必须按照阶段依次开展相应活动;迭代模型主要应用于需求不完全明确,大型复杂本体的构建过程,它是采用瀑布模型构建单个本体的一组迭代。
    由于本体构建的场景不同,所需要的构建阶段也有所不同:从头创建本体需要4个阶段,初始阶段、设计阶段、实施阶段和维护阶段;本体资源的重用分为5个阶段,在初始阶段之后增加了重用阶段;非本体资源的重用和重构,分成了6个阶段,在初始阶段之后增加了重用和重构阶段。本体构建的不同阶段——初始、设计、实施、维护、重用、重构,对应着不同的本体构建活动。
    根据STKOS本体构建的场景和生命周期活动,整个本体工具和平台分为3个层次

    摘自:毕业论文工作总结www.udooo.com


    (1)本体存储与管理层:存储领域本体、科研本体,并建立本体索引。通过API调用对本体进行访问,并可进行用户管理、多本体管理。
    (2)本体工具层:搭建插件运行环境,可加载本体创建、本体查询、本体裁切、非本体资源转换、本体语义丰富、本体合并、本体浏览、本体评估、本体推理等本体工具。
    (3)用户界面:根据用户不同的本体构建需求,来组合本体活动和相应的工具,从而实现新建本体、非本体资源转换、现有本体资源复用等。

    5 STKOS知识组织体系建设中的难点

    作为我国外文科技文献知识组织的基础设施,STKOS知识组织体系涉及学科众多、内容庞杂,在构建超级词表和本体建设的过程中,遇到了各种各样的问题,其中主要的难点为:
    (1)对概念的规范整理、凝练、范畴归类:要将多来源的词汇,以概念为核心,形成继承来源属性关系的词网络,需要保证以概念汇集的术语规范整理、聚类归类的准确性和一致性,其关系到构建后的超级科技词表对知识资源组织的准确性、可用性,因而如何对来源术语进行规范整理,实现术语的聚类归类、概念关系继承,成为了超级词表构建中的一个难点,需要在现有叙词表标准的基础上设计规范整理规则和数据格式,对术语的相似度计算方法和模型、设计概念同义归并和归类以及概念同形异义区分的方法和算法,从而实现计算机辅助人工处理。
    (2)本体构建与应用的结合:随着本体研究的完善,单纯构建一个本体并不困难,但如何将本体构建与应用场景、应用模式相结合,形成可复用的本体资源,能面向应用形成本体,需要深入地探讨。因而将本体构建通过动态建模的方法,以情境分析为基础采取合作方式,来实现本体的重用、重构、映射、关联和模块化,实现非本体的知识组织体系向本体转换构建本体网络,成为了本体构建的难点。
    参考文献:
    国家科技基础条件平台中心.“十一五”国家科技基础条件平台建设总结(简版)[EB/OL].[2012-11-20].http:///l-side/11

    5.jsp.

    Aldo gangemi, Frehiwot Fisseha,Ian Pattman, Johannes Keizer. Building an integrated formal ontology for semantic interoperability in the fishery domain[EB/OL].[2010-03-13].ftp://ftp.fao.org/docrep/fao/008/af242e/af2
    42e00.pdf.
    [3]Aldo Gangemi. Reusing semi-structured terminologies for ontology building[EB/OL].[2010-3-13].http://wonderweb.semanticweb.org/deliverables/documents/D1

    6.pdf.

    [4]CaterinaCaracciolo. Second Network of Fisheries Ontologies[EB/OL].[2010-03-13].http://works[EB/OL].[2012-12-20].http://www.neon-project.org/web-content/media/book-chapters/Chapter-03-

    1.pdf.

    作者简介:孙坦(1970-),男,中科院国家科学图书馆研究馆员,博士生导师;刘峥(1979-),女,中科院国家科学图书馆副研究馆员。
  • copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号