YongSir

专业程序员伪装者

我的机器学习之概述

概述

  • 是什么?
    通俗来讲就是利用已有数据,得到某种模型,并利用其预测未来的计算机方法,跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,和NPL等领略息息相关,是一门交叉学科。一般可认为数据挖掘等同于机器学习,只是其数据来源不仅仅来源于结构化数据,还包括图像,音频等。下面的说法也常常被默许:
    模式识别最初来源于来源于工业界,后来扩展到语言,图像等等
    数据挖掘 = 机器学习 + 数据库
    自然语言处理 = 文本处理+机器学习
    计算机视觉=图像处理+机器学习
    语音识别=语音处理+机器学习

核心的学习问题的定义:针对某类任务T的,可以用P来衡量性能,如果P可根据经验E来自我完善,则称之为该计算机程序从经验E中学习。 而机器学习这么学科就是让机器进行学习的学科,其最原始的定义由Tom Mitchell等提出:
从样本集S(z, {xkk, y, ykk})学习/估计一个假设f(x),使得f(x)是问题世界模型F(x)的一个近似

  • 常见术语罗列,基本很容易理解
    f = aX + bY + cZ + ...

数据集: 所有可能取到的变量
示例/样本
属性/特征: a,b,c等
属性空间/样本空间/输入空间X:由全部属性而成的空间,如上述a,b,c为坐标轴形成的空间,每个点可以是一个样本
特征向量: 属性空间中的坐标向量
训练集
训练样本
假设
标记:关于示例结果的信息,如年龄20~35称之为适龄青年,适龄青年就是一个标记
样例:拥有标记的示例,会组成标记空间/输出空间
分类:对于离散型任务的别称
回归:预测结果是连续值的问题的统称
特征清洗相关: 采样,归一/离散化,降维,特征提取等
损失函数: 用以度量结果和预期的不同

  • 适用领域

收集数据 ->

  • 机器学习算法分类