课前一些话
作业提交及命名规则:
大数据分析方法(定义):
不是随机分析法(抽样调查)这样的捷径,而是采用所有数据进行分析处理。
——《大数据时代》
问题在于可能存在一些离群值,脏数据。需要先清洗。
数据价值:
大数据特点:
规模大,速度快(最重要是流动快,实时性高),种类多,价值密度低。
大数据基本类型:
数据库数据(二维表),数据仓库数据,事务数据(订单),图和网路数据,其他类型数据
数据分析的四个层次:
描述分析,诊断分析(数据变化的原因),预测分析,决策分析
数据挖掘的定义:
探索隐藏在数据中的未知的知识和规律(模糊,一种探索与尝试)
大数据的分析与挖掘的必要性:
完整地、真实地反映客观情况
实现管理的科学化与决策的精准化
有利于数据资料的深度开发利用
信息产业持续高速增长的新引擎
提升企业核心竞争力的关键要素
大数据分析与挖掘的过程:
我寻思这不就是数学建模哈哈哈。下面逐个介绍:
数据准备:
构建模型:
数据分析与挖掘的方法与技术:
技术:数据管理,建立数据之间的联系
基础架构,在工作岗位上会用
数据理解与提取:
自然语言处理
数据抽取:把非结构化数据中包含的信息进行结构化处理
统计分析:
机器学习:
数据可视化:
模仿网站:echarts Examples - Apache ECharts,含有所有你能想到的可视化方法。比如这些高端的、漂亮的图:
难点:
1.与领域知识相结合:有个懂行的人,合理的表示化学啊,农业啊领域的内容。
2.结果的检验:必须经过一定检验才能真正运用,有的时候做检验成本很高,没法检验。