您的位置: turnitin查重官网> 计算机 >> 处理技术 >探究数据挖掘中聚类

探究数据挖掘中聚类

收藏本文 2024-02-28 点赞:4065 浏览:14131 作者:网友投稿原创标记本站原创

摘要:随着信息技术的发展,数据挖掘技术得到了广泛的关注,聚类分析数据挖掘是其中一个重要的研究方向。该文首先对数据挖掘相关技术进行了简要的分析,对数据挖掘中的聚类分析技术进行了介绍,聚类分析的方法主要有层次方法、划分方法、基于密度的、网格的以及模型的方法,聚类分析已经广泛地应用于模式识别,数据分析,图像处理,以及市场研究等,该文的研究对聚类分析的应用具有一定的参考价值。
关键词:数据挖掘;聚类分析
1009-3044(2013)09-2031-02
1 概述
随着信息技术的高速发展,各种新思想、新技术不断涌现。而数据挖掘技术是目前信息技术领域的公认的最为前沿课题,是最具有发展前景的技术之一。聚类分析作为数据挖掘的重要功能近年来也取得了长足的进步,一系列方法的产生对于分析准确性的提供了坚实的基础,从而也使得其应用扩展到各个领域,通过本文的研究为聚类分析技术的应用提供一定的借鉴。

2 数据挖掘概述

2.1 数据挖掘的含义

由于一些数据的无规律性、模型性以及数量的庞大,需要从中提取有用的信息,数据挖掘技术就是通过计算机手段,从上述数据中提取不确定的信息相关企业所用的一种方法。这里面包含了几点信息,就是数据源应该是大量且真实的,而寻找出的数据是对客户有用处的,能够为客户所接受的,具有一定的较强的实用价值。数据挖掘是一门交叉学科,它将对数据简单的低层次的应用提升到采用较高技术手段获取知识从而提供决策的支持。从商业角度来看,数据挖掘作为一种高效的信息化技术处理手段,能够对商业数据库中的大量数据进行有效的提取,从而辅助决策者做出可靠的判断,通过数据挖掘技术,能够提高企业的竞争力,为企业获得更高的利润。因此,数据挖掘在商业中的应用时也可以定义为按照企业的相关要求,对企业所拥有的大量数据信息进行分析,提取其中有用的信息,为企业提供相应的支持的技术。

2.2 数据挖掘的相关技术

数据挖掘应该具备发现与预测、关联规则挖掘、数据聚类、概念描述、偏差分析以及演变分析六个方面的功能,其过程首先是确定业务对象,然后进行数据准备,进行数据挖掘,最后对结果作出解释评价与可视化,常用的数据挖掘技术主要有以下几种:
(1)统计类方法
统计学方法出现的时间较早,应用的范围也较广,主要通过相关分析法、回归分析法以及聚类分析法等对数据进行处理,方法较为简便,容易学习。
(2) 决策树和决策规则
决策树和决策规则方式是人工智能形式的归纳学习方法,通过将问题分解为若干个子集来进行分析,该方法是典型的通过逻辑模型进行输入的数据挖掘方法,该方法在处理非数值型的数据时具有很强的优越性。
(3)关联规则
关联规则是通过发现数据项间是否具有如果—那么的因果关系而对大量数据进行区分、寻找,当然,这种关系有可能是人为定义的而数据本身并不具备相应的特点,选取的数据间也不一定具有必须的因果关系或相关性,仅仅是为了选择具有一定的普适性。
(4)遗传算法
遗传算法是根据生物学中的相关理论而演变过来的一种数据挖掘方式,采用了生物学中的自然选择自然选择、遗传交叉以及遗传变异等设计方法,在分析过程中将问题检测定为染色体,能够进行遗传,按照适者生存的法则,淘汰掉无法适应环境的染色体,继续进行交叉、变异,不断的往复,从而找到最适合环境的染色体,也即为我们需要的最优的数据解。遗传算法目前在图像处理、工业优化控制方面得到了广泛的应用。
(5)人工神经网络
人工神经网络是一种基于人体大脑神经连接、传递而演变的数学方法,神经网络可以看做是一个大型的运算模型,模型之间通过节点构成,每个节点代表一种特点的激励函数,而节点间的连接为权重,数据的最终输出成果与激励函数和权重有较大关系,一般通过对已有数据的学习,建立适合的逻辑表达,即输入数据与结果间的一种未知联系,从而构成神经网络系统,对其他大量的数据进行分析、预测,神经网络应用中学习样本数量越多,则其网络结构也越准确,预测结果也具有更大的可靠性。
(6)模糊逻辑
模糊分析是今年来发展起来的一种数据挖掘技术,以往的分类系统往往是根据确定的规则进行分类、决策,但实际中很多概念和数据都是不确定的,具有很强的模糊性,因此,在数学处理中引入检测定的模糊逻辑,从而实现了对更高层次内容的抽象处理,其在对数据的初步分类中应用非

摘自:学年论文www.udooo.com

常广泛,且具有较高的可靠性。

3 数据挖掘中的聚类分析技术

聚类分析是将数据对象依据样本间的关联的度量标准将数据进行分组为多个类或簇的数据挖掘技术,同一类中的样本相似,不同类的样本相异。将一组样本和一个度量两个样本间相似度的标准作为参数输入到聚类分析系统中,通过分析可以的到具有标准相似度的多个样本类,通过对每个类所进行的综合描述说明,促进了对数据集特征的进一步分析。聚类技术主要应用在植物分类、疾病分类、图像处理、模式识别、市场研究以及文本检索等领域。

4 聚类分析方法

聚类技术的优越性主要体现在算法方法,算法的好坏主要通过算法的可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、最少的参数和确定参数值的领域知识、处理噪声数据的能力、对于输入记录的顺序不敏感、高维性、基于约束的聚类以及可解释性和可用性进行衡量,目前聚类分析算法可以划分为以下几类: 层次方法、划分方法、基于密度的方法、基于网格的方法和基于模型的方法。
(1)层次方法。通过将数据划分为若干组形成树形的结构来进行聚类分析,根据构建数方式的不同也可分为自顶向下的分裂算法和自底向上的凝聚算法两种。
(2)划分方法。划分方法是指将给定的大量数据通过一定的规则或不同的划分方法分成多个组或簇,每个组中都应该至少包含一组数据,同时,每个组之间具有显著的不同,不同类型的数据只能属于不同的组。通过划分法形成的每个组中的数据具有很强的相似性,便于进行整体分析。
(3)基于密度的方法。该方法是指通过相邻局域的密度超过某个阈值而发生持续聚类的方法,也就是说,在每个给定的区域内都将包含一定数目的点,从而通过该方法来过滤掉一些异常点,提高数据分析的效率。
(4)基于网格的方法。该方法将数据对象划分为有限数目的单元型式,从而形成一个网络结构,在网格上进行聚类操作,加快了处理速度。
(5)基于模型的方法。可以将每个已有的簇检测定为一种模型,通过寻找对该模型的最佳拟合而优化给定数据与模型间的适应性,其数据一般是通过潜在的概率分布生成的,算法一般采用统计学原理或神经网络的方法。
此外,随着不同于传统存储的静态数据的流数据的大量产生,也为相应的流聚类分析方法研究提供的基础,成为近年来研究的热点方向。

5 结束语

聚类分析是数据挖掘的重要功能之一,随着对数据挖掘的重视,使得聚类分析的相关研究也取得了长足的发展,其相应的聚类分析方法已经应用到了人工智能科学的所有方面,且取得了良好的效果,相信在未来随着信息技术的进步,聚类分析将会有更为广阔的应用空间。
参考文献:
陈京民.数据仓库原理、设计与应用[M].北京:中国水利水电出版社,2004.
邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
[3] 李仁义.数据挖掘中聚类分析算法的研究与应用[D].成都:电子科技大学,2012.
[4] 傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011,31(2):432-434.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号