您的位置: turnitin查重官网> 教育 >> 安全教育 >论教育类文本信息提取技术

论教育类文本信息提取技术

收藏本文 2024-02-16 点赞:3670 浏览:10590 作者:网友投稿原创标记本站原创

摘 要 网络信息呈指数式发展,教育类网站更是蓬勃发展。开发一种教育类网站文本信息提取系统用于提取并分析网页中文本信息,实现通过文本对网页进行检索。
关键词 教育类网站;中文分词;信息检索
1671-489X(2013)36-0042-02
1 引言
现代社会互联网已经融入人们生活的方方面面,各种信息资源充斥着人们生活的每个角落。随着互联网的发展,信息资源也在以指数级的速度发展。各种教育类的网站玲琅满目,却使得学习者在网络中获取自己想要的信息变得困难起来。因此,寻找一种合适的检索策略就变得尤为重要了。
在众多的网页资源之中,文本信息始终是最重要的一环,提出一个合适的策略,提取网页中的文本信息,并能够实现通过文本信息对网页进行检索,一定可以大大缩短用户的搜索时间,并提高准确率。

2 文本信息提取相关技术

万维网技术 万维网(World Wide Web),即通常所说Web,最早可以追溯到Tim Berners-Lee提出的“Distributed hypermedia systems engineering”,也就是分布式超媒体系统工程。这个由Berners-Lee于1980年建立的ENQUIRE,被公认为是现代万维网的源头。
经过20多年的发展,万维网形成了一种独特的工作机制,即Client/Server(客户机/怎么写作器)模式,这种机制的工作原理也较为简单:首先用户通过客户端的软件发送请求,客户端的软件会对客户的请求进行初始化,然后将初始化后的请求发送给怎么写作器,怎么写作器在收到请求之后,响应这一请求并将相关数据发送给客户端。
万维网是一种以DOM结构为基础而建立的模型,早已成为当前网络信息资源的主流。万维网主要是以3个部分作为基础的:首先是HTML,也就是超文本的标记语言;然后是HTTP,即超文本的传输协议;最后是URL,指的是资源定位符。WWW技术可以支持丰富的多媒体,而且管理简便、实现简单,还拥有超高的应用效率,已经成为网络上最主要的应用之

一、在教育领域应用十分广泛。

超文本标记语言结构 目前,使用HTML(超文本标记语言)来描述网页已经成为主流。作为一种使用简单且兼容性、迁移性极佳的语言,其使用的“文档格式定义”的概念,可以用于制作包含各种资源的网页,并可以提供各网页之间的链接。
HTML语言设计简单,结构灵活,是Internet上最流行的标准格式。HTML文档是以纯文本文件形式存在的,主要包括4个部分的内容:标记,是指标签符号及其组成元素,由成对出现的开始标签和结束标签组成;属性,一般是对标签进行提供单元的某些信息或补充说明;实体,用于表示被占用的特殊符号;注释,用于标注并不会在客户端显示的内容。
HTML是一种非结构化与半结构化相结合的语言,虽然它将资源数据按照一定的方式进行了组织,但是由于资源本身的数据是非结构的,这就导致了其半结构化的结构模式。
中文分词技术 中文分词技术是中文信息处理的基础与关键,实际上就是把一个句子切成若干个词。和英文不同,中文的句子中词语与词语之间是没有较为显著的分隔的,所以处理起来要复杂得多。在该领域中已经有如下几类算法:以统计为基础的策略,首先对词出现的频率进行统计,不需要构建词典,使用之前对统计好的结果词进行切分,使用起来较为复杂且准确性得不到保证;以字符串的匹配为基础的策略,该策略首先要构建一个分词词典,然后按照正向或者逆向的顺序把一长串汉字中的特定长度的字符串与事先构建好的词典中的词进行比较,一旦发现词典中有这个字符串,就把这个字符串切出来保存为一个词。基于分词速度与精度的考虑,本文采用的分词算法是基于字符串匹配的分词策略逆向最大匹配。

3 教育类网站中文本信息提取系统的设计与实现

相关文本界定 网页中出现的文本信息可进行如下划分。
1)Web标题。能对Web的主要内容进行综述的往往是Web的标题,出现在标签之间,其中包含了Web的主旨信息。
2)Web内容描述。Web头部标签…之间属性为description时name的内容,用于对网页的内容进行大致的说明。
3)Web关键词。Web头部标签…之间属性为description时keywords的内容,作为网页内容的关键词对网页内容有提纲挈领的作用。
以上三个部分的内容,基本上涵盖了这个Web的主要信息,利用这三个部分的内容信息,建立数据库,就可以很好地为搜索提供帮助。
相关词典构建 对于中文信息的处理,中文分词词典具有举足轻重的作用。本文中所采用的分词算法是逆向算法,所以构建逆向分词词典,词典包含171 031个词条,包含了日常生活中经常使用的普通词和中小学各个年级、各类学科的关键词;词的排序是将词中首位字相同的词放在一起,然后按词的长度由长到短排列。
系统结构设计 教育类网站文本信息提取过程主要包括两大步骤:首先,搜索网络中的教育类网站,下载教育类网站的网页,并将网页的相关信息存入到教育类网站网页数据库数据表中;其次,对网页数据表里的网页进行处理与分析,进一步提取相关文本,再对相关文本进行中文分词等操作,从而分析提取出用于描述、标引教育教育类网站文本信息提取技术由提供海量免费论文范文的www.udooo.com,希望对您的论文写作有帮助.类网站的信息,最终形成教育类网站的信息库。本文中采用Visual C++

6.0为开发平台,数据库采用Access 2003,系统结构如图1所示。

系统各模块的实现策略 教育类网站文本信息提取系统分为四大模块。
1)教育类网站搜集模块。该模块的主要功能是通过使用网页爬行器,在网络中搜索下载教育类网站的网页,并将所搜集到网页的相关信息存放到教育类网站库Edupage.mdb文件中。教育类网站文本信息提取技术论文资料由论文网{#GetFullDomain}提供,转载请保留地址.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号