教程笔记概述

来源于课程MA429,讲述统计机器学习。是算法工程师的基础。

本文阅读先决条件

阅读并尽可能理解intro naive bayes.pdf这个课件。

内容总结

KDD

Knowledge Discovery in Databases(KDD)的五大阶段:

  • 数据选择(创造数据仓库,选择数据文件)
  • 数据预处理(去多余变量,去异常值,处理缺失值)
  • 转换(变量值转换为需要的格式)
  • 数据挖掘(机器学习部分)
  • 验证及解释(验证挖掘的规则,可解释性如何)

学习分类

  • 监督学习
  • 无监督学习
  • 半监督学习(找未标记数据的分隔线,利用未标记数据解释输入数据的分布)

关于可解释性以及性能:
决策树可解释性很好,性能一般般
神经网络性能很好,可解释性不好

有参数的学习方法和无参数的学习方法:
knn算法就没有要学习的参数。