1. 机器学习用到了统计学知识
  2. 机器学习就是把无序的数据转换成有用的信息
  3. 如何从数据集中选取特征?
    通常的做法是测量所有可测属性,而后再挑出重要部分。
  4. 机器学习的主要任务就是分类。为了测试机器学习算法的效果,通常使用两套独立的样本集,训练数据和测试数据。当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于那个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。
  5. 如何选择合适的机器学习算法?
    考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定监督学习算法之后,需要进一步确定目标变量的类型,大多数情况下,如果目标变量是离散型,则可以选择分类算法;如果目标变量是连续型的数值,则需要选择回归型算法。注意:也可以用分类算法来处理回归问题。
  6. 我们只能在一定程度上缩小算法的选择范围,一般并不存在最好的算法或者可以给出最好结果的算法,同时还要尝试不同算法的执行结果。对于所选的每种算法,都可以使用其他的机器学习技术来改进其性能。
  7. 开发机器学习应用程序的步骤
    (1)收集数据。提取数据的方法有很多(如制作网络爬虫从网站上抽取数据),为了节省时间和精力,可以使用公开可用的数据源。
    (2)准备输入数据。确保数据格式符合要求。
    (3)分析输入数据。确保数据集中没有垃圾数据
    (4)训练算法。将前两步得到的格式化数据输入到算法,从中抽取知识或信息。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,转到下一步。
    (5)测试算法。
    (6)使用算法。将机器学习算法转化为应用程序,执行实际任务。