概述
- 是什么?
通俗来讲就是利用已有数据,得到某种模型,并利用其预测未来的计算机方法,跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,和NPL等领略息息相关,是一门交叉学科。一般可认为数据挖掘等同于机器学习,只是其数据来源不仅仅来源于结构化数据,还包括图像,音频等。下面的说法也常常被默许:
模式识别最初来源于来源于工业界,后来扩展到语言,图像等等
数据挖掘 = 机器学习 + 数据库
自然语言处理 = 文本处理+机器学习
计算机视觉=图像处理+机器学习
语音识别=语音处理+机器学习
核心的学习问题的定义:针对某类任务T的,可以用P来衡量性能,如果P可根据经验E来自我完善,则称之为该计算机程序从经验E中学习。 而机器学习这么学科就是让机器进行学习的学科,其最原始的定义由Tom Mitchell等提出:
从样本集S(z, {xkk, y, ykk})
学习/估计一个假设f(x)
,使得f(x)
是问题世界模型F(x)
的一个近似
- 常见术语罗列,基本很容易理解
f = aX + bY + cZ + ...
数据集: 所有可能取到的变量
示例/样本
属性/特征: a,b,c等
属性空间/样本空间/输入空间X:由全部属性而成的空间,如上述a,b,c为坐标轴形成的空间,每个点可以是一个样本
特征向量: 属性空间中的坐标向量
训练集
训练样本
假设
标记:关于示例结果的信息,如年龄20~35称之为适龄青年,适龄青年就是一个标记
样例:拥有标记的示例,会组成标记空间/输出空间
分类:对于离散型任务的别称
回归:预测结果是连续值的问题的统称
特征清洗相关: 采样,归一/离散化,降维,特征提取等
损失函数: 用以度量结果和预期的不同
- 适用领域
收集数据 ->
- 机器学习算法分类