我的机器学习之概述

概述

是什么？
通俗来讲就是利用已有数据，得到某种模型，并利用其预测未来的计算机方法,跟模式识别，统计学习，数据挖掘，计算机视觉，语音识别，和NPL等领略息息相关，是一门交叉学科。一般可认为数据挖掘等同于机器学习，只是其数据来源不仅仅来源于结构化数据，还包括图像，音频等。下面的说法也常常被默许：
模式识别最初来源于来源于工业界，后来扩展到语言，图像等等
数据挖掘 = 机器学习 + 数据库
自然语言处理 = 文本处理+机器学习
计算机视觉=图像处理+机器学习
语音识别=语音处理+机器学习

核心的学习问题的定义：针对某类任务T的,可以用P来衡量性能，如果P可根据经验E来自我完善,则称之为该计算机程序从经验E中学习。而机器学习这么学科就是让机器进行学习的学科,其最原始的定义由Tom Mitchell等提出：
从样本集S(z, {xkk, y, ykk})学习/估计一个假设f(x)，使得f(x)是问题世界模型F(x)的一个近似

常见术语罗列，基本很容易理解
f = aX + bY + cZ + ...

数据集: 所有可能取到的变量
示例/样本
属性/特征: a,b,c等
属性空间/样本空间/输入空间X：由全部属性而成的空间,如上述a，b，c为坐标轴形成的空间,每个点可以是一个样本
特征向量: 属性空间中的坐标向量
训练集
训练样本
假设
标记：关于示例结果的信息，如年龄20～35称之为适龄青年，适龄青年就是一个标记
样例：拥有标记的示例，会组成标记空间/输出空间
分类：对于离散型任务的别称
回归：预测结果是连续值的问题的统称
特征清洗相关：采样，归一/离散化，降维，特征提取等
损失函数：用以度量结果和预期的不同

适用领域

收集数据 ->

机器学习算法分类