当前位置: 首页 > 图灵资讯 > 技术篇> 数据挖掘的技术有很多种,按照不同的分类有不同的分类法

数据挖掘的技术有很多种,按照不同的分类有不同的分类法

来源:图灵教育
时间:2023-04-19 16:10:02

数据挖掘是从大量、不完整、有噪音、模糊、随机的数据中提取隐含但潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式。可以找到的模式有很多种。根据功能可分为两类:预测性(Predictive)模式和描述性(Descriptive)模式。根据模式的实际作用,在应用中往往细分为分类、估值、预测、相关性分析、序列、时间序列、描述和可视化等。

数据挖掘涉及多种学科和技术,分类方法多种多样。根据挖掘任务,可分为分类或预测模型发现、数据总结、聚类、相关规则发现、序列模式发现、依赖关系或模型发现、异常和趋势发现等。;相关数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库和全球网络网络网络;根据挖掘方法,可分为:机器学习、统计、神经网络和数据库。机器学习可细分为:归纳学习方法(决策树、规则归纳等)、基于示例学习、遗传算法等。机器学习可细分为:归纳学习方法(决策树、规则归纳等)、基于示例学习、遗传算法等。统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析、相关分析等)。).前向神经网络(BP算法等)可细分为神经网络方法、自组织神经网络(自组织特征映射、竞争学习等)。数据库方法主要是多维数据分析或OLAP方法,以及面向属性的归纳方法。

数据挖掘的技术有很多种,根据不同的分类有不同的分类方法。以下是数据挖掘中常用的一些技术:统计技术、相关规则、基于历史分析、遗传算法、聚集检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差异分析、概念描述等13种常用的数据挖掘技术。

1、统计技术

数据挖掘涉及许多科学领域和技术,如统计技术。统计技术挖掘数据集的主要思想是:统计方法假设给定数据集的分布或概率模型(如正态分布),然后根据模型采用相应的挖掘方法。

2、关联规则

数据关联是数据库中一种重要的可发现知识。如果两个或两个以上变量值的I司有一定的规律性,则称为关联。关联可分为简单关联、时间顺序关联和因果关联。相关分析的目的是找出隐藏在数据库中的相关网络。有时我不知道数据库中数据的相关函数,即使我知道,它也是不确定的,所以相关分析生成的规则是可信的。

3、MBR基于历史(Memory-based Reasoning)分析

先根据经验知识找出类似的情况,然后将这些情况的信息应用到当前的例子中。这就是MBR(Memory Based Reasoning)的本质。MBR首先寻找与新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表达历史数据的最有效方法;决定距离函数、联合函数和邻居的数量。

4、GA遗传算法(Genetic Algorithms)

基于进化理论,采用遗传结合、遗传变异、自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最合适的规则组成的新群体和这些规则的后代。在典型情况下,规则是合适的(Fitness)用它来评估训练样本集的分类准确性。

5、聚集检测

将物理或抽象对象的集合分成由类似对象组成的多个类的过程称为聚类。聚类产生的簇是一组数据对象的集合,与同一簇中的对象相似,不同于其他簇中的对象。相差是根据描述对象的属隋值计算的,距离是常用的测量方法。

6、连接分析

连接分析,Link analysis,它的基本理论是图论。图论的思想是找到一个算法,可以得到好的结果,但不是完美的结果,而不是完美的解决方案。连接分析就是运用这样的想法:如果不完美的结果是可行的,那么这样的分析就是一个很好的分析。有些模式可以通过连接分析从一些用户的行为中分析出来;同时,将产生的概念应用到更广泛的用户群中。

7、决策树

决策树提供了一种展示在什么条件下会得到什么样的规则的方法。

8、神经网络

在结构上,神经网络可分为输入层、输出层和隐含层。输入层的每个节点对应于每个预测变量。输出层的节点对应于多个目标变量。在输入层和输出层之间是一个隐含层(对于神经网络用户来说是不可见的),每个节点的数量决定了神经网络的复杂性。

除了输入层的节点外,神经网络的每个节点都与许多前面的节点(称为该节点的输入节点)相连。每个连接对应一个权重Wxy。该节点的值是通过输入其所有输入节点的值和相应的连接权重乘积和作为函数获得的。我们称这个函数为活动函数或挤压函数。

9、粗糙集

粗糙集理论是基于建立给定训练数据中的等价类。所有形成等价类的数据样本都没有区别,也就是说,对于描述数据的属性,这些样本是等价的。对于给定的现实世界数据,一些类别通常无法区分为可用的属性。粗糙集用于类似或粗略地定义这种类型。

10、模糊集

模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的真实值表示特定值是给定成员的程度,而不是准确切断类别或集合。模糊逻辑为高抽象层处理提供了便利。

11、回归分析

回归分析分为线性回归、多元回归和非线性同归。在线性回归中,数据采用线性建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是将多个项目添加到基本的线性模型中,形成非线性同门模型。

12、差别分析

差异化分析的目的是试图发现数据中的异常情况,如噪声数据、欺诈数据等,从而获得有用的信息。

13、概念描述

概念描述是描述一个物体的内涵,并总结这个物体的相关特征。概念描述分为特征描述和差异描述。前者描述了一个物体的共同特征,后者描述了不同物体之间的差异,产生了一个物体中所有物体的共同特征。

数据挖掘被认为是一个新兴的、非常重要的、广阔的应用前景和具有挑战性的研究领域,因为人们迫切需要将存在于数据库和其他信息库中的数据转化为有用的知识,研究人员应广泛关注许多学科(如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等)。数据挖掘作为一门新兴学科,是由上述学科相互交叉融合而成。数据挖掘作为一门新兴学科,是由上述学科相互交叉整合形成的。随着数据挖掘的进一步发展,必然会给用户带来更大的利益。

数据挖掘的技术有很多种,按照不同的分类有不同的分类法_神经网络