2.1 人工智能项目开发与规划
人工智能项目开发的目标:发现与明确问题
- 技术角度:需要思考AI系统性能能达到预期吗,需要多少数据,能否获取足够的数据,需要多久的时间
- 业务角度:需要解决什么问题,商业目的是什么
数据准备
重要性:
- 在大部分的人工智能项目中,数据采集与数据清洗占据了79%的工作量
- 训练数据的规模越大,越能带来更好的 AI 模型的性能
流程:
- 数据采集:观测数据、人工收集、调查问卷、线上数据库
- 数据清洗:去除缺失、重复、内容错误、不需要的数据
- 数据标注:分类、画框、标注、注释
- 数据划分:划分出训练集与测试集,通常为8:2
- 数据验收:合法性、准确性、完整性、一致性
- 数据管理:实现数据有效管理的关键是数据组织
问题:
- 数据不足
- 数据隐私泄露
- 分类质量低
- 数据质量低
特征工程
数据和特征决定了机器学习的上限,而模型与算法只是逼近该上限。
特征工程是指从原始数据转换为特征向量的过程,是机器学习最重要的起始步骤,会直接影响机器学习的效果,通常需要大量的时间来完成。
特征工程的基本方法:
- 特征选择:从给定的特征集合中选出相关特征子集的过程。去除无关特征可以降低计算复杂度
- 特征提取:在特征选择前,提取的对象是原始数据,目的是自动构建新特征,将原始数据转换成一组具有明显物理意义(如几何特征、纹理特征)或统计意义的特征
- 特征构建:从原始数据中人工构建新特征,需要花时间观察原始数据,思考问题的潜在形式与数据结构,对数据的敏感和机器学习实战经验能帮助特征构建