数据挖掘与分析应用:算法模型选择与训练、评估模型、上线部署,回到准备数据阶段
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲
数据挖掘知识系列文章
【1】数据挖掘与分析应用:理解业务和数据,准备数据,数据清洗,标准化,缺失值处理,构建数据集
文章目录
- 数据挖掘与分析应用:算法模型选择与训练、评估模型、上线部署,回到准备数据阶段
- @[TOC](文章目录)
- 数据挖掘:算法怎么着合适?
- 模型评估
- 模型可以解决业务需求吗
- 总结
数据挖掘:算法怎么着合适?
面对的问题是??
美丑二分类
1-n多分类
多标签,一个数据,几种类别
线到各个点的距离——cost——loss最小
回归+sigmoid
可以变二分类的标签
关联模式
关联关系
相关关系
尿不湿+啤酒
模型评估
消耗大量时间,等待产出
希望有一个好结果
识别小猪猪
二分类f
1000张训练
800是,200否
true positive
true negative假阳性:负判正
假阴性,正判负
准确率acc
正确预测的,正样本OK,负样本也OK
精确率,正样本总体下,正的比例
召回,正确的,确实是真的正【可能是负样本判正了】
roc和auc
上面小猪有一个缺口,判定不是猪,那就过拟合
下面小羊竟然判定为猪,那就是欠拟合
模型可以解决业务需求吗
flask web服务
gunicorn http服务linux
nginx负载均衡器——避免单一资源过载
客户端app
互联网公司经常动荡