机器学习:输入
一、四种学习方法:
1.分类学习 classification learning : 用分类样本集表示学习方法
2.关联学习 association learning : 寻找任何特征之间的关联
3.聚类 clustering : 找到可以组合在一起并分组的样本
4.数值预测 numeric prediction : 预测的是一个数值,而不是离散类
1.分类学习:有称指导supervised学习,因为每个训练样本都有明确的结论。
2.关联学习:因为任何属性都可以预测,所以关联规则太多了。
因此,有必要找到一个可以应用的最小样本数量,并且大于特定的最小正确率。
(小规则覆盖大量未来样本)
3.聚类:样本可以分配到多个聚类,找出这些聚类,并将新样本归类为聚类
4.数值预测:是分类学习的变种,预测的是数值,而不是一个类
二、样本:
输入:实例,表示单一、独立的概念样本,由一组预定义的属性表示
(但当实例之间存在密切关系时,需要并列样本、递归等方法,防止关系丢失)
三、属性:
一列是实例,分为名词性值和有序值两种
名词性值:有范围,可枚举,离散属性(包括二分值true) false)
有序值:值,可连续属性
四、数据准备
1.数据收集:
数据必须集中、集成和清理。
2.ARFF格式:
数据集的标准表示方法是由独立、无序的实例组成的,不涉及实例之间的关系。
以下ARFF格式的例子:
%
%注释
@relation weather 关系名称
@attribute outlook {sunny, overcast, rainy} 属性列表
@attribute temperature numeric
@data 实例集,缺少的数据用于补位
sunny 89
overcast 88
3.稀疏数据
比如购物商品,文章中的单词都是稀疏矩阵的全集中,
因此,以非0值属性的位置和值为例,如:
{110,0,0,0,21 10,4 21}
ARFF中的稀疏属性也表示@data实例集
4.属性类型
ARFF允许名词性值和数量两种基本类型。
这两种基本类型的定义取决于机器学习计划:
4.1 数值作为有序的刻度处理
4.2 数值是比率值测量(定义一个标准,如减去统计平均值后的标准差,或最大值,或减去最小值后的最大值和最小值差)
4.3 以名词性质为数值编码,如07080217的前两个是入学日期
4.4 将数值归纳为名词性值,如20为young,将名词性可续化
5.残缺值
指数据超过正常值或空缺。需要了解数据的人处理不完整的值。
6不正确的值