1. 数据分析

数据分析 Data Analysis 是数学与计算机科学相结合的产物,指使用适当的统计分析方法对搜集来的大量数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。

数据挖掘则指的是从大量的,不完全的,有噪声的,模糊的和随机的实际应用数据中,通过应用聚合,分类,回归和关联规则等技术,挖掘潜在价值的过程。

数据分析有狭义和广义之分。狭义的数据分析指根据分析目的,采用对比分析,分组分析,交叉分析和回归分析等分析方法,对收集的数据进行处理分析,提取有价值的信息,发挥数据的作用,并得到一个特征统计量结果的过程。一般说的数据分析就时狭义数据分析。而广义的数据分析指针对搜集的数据运用基础探索,统计分析,深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,为下一步业务决策提供理论与实践依据。

2. 数据可视化

数据可视化 Data Visualization 是数据分析和数据科学的关键技术之一。它将数据或信息编码为图形或图像,允许使用图形图像处理,计算机视觉以及用户界面,通过表达,建模以及对立体,表面,属性和动画显示,对数据加以可视化解释。

数据可视化过程,数据处理,视觉编码,可视化生成。

数据处理聚焦数据的采集,清理,预处理,分析和挖掘。

视觉编码聚焦于对光学图像进行接收,提取信息,加工变换,模式识别以及存储显示。

可视化生产则聚焦于将数据转换成图形,并进行交互处理。

3. 数据分析与可视化常用工具

1.Microsoft Excel

2. R语言

3.Python语言

4.SAS Enterprise Miner

5.SPSS

6.专业可视化分析工具-Power BI ,Tableau, Gehpi

4.选择Python进行数据分析和可视化原因

(1)爬取数据需要使用Python

(2)数据分析需要Python

(3) Python语言简单高效

5. Python数据分析与可视化常用类库

NumPy,Scipy , Pandas, Matplotlib, Seaborn, Scikit-learn,