这篇文章是整个专栏的引言部分,我将从数据分析过程的基本要素组成、各要素具备技能分析和专栏章节安排三个方面来展开接下来的论述。
一、数据分析过程的基本要素组成
由上图可知,进行数据分析的的基本流程是“确认需求-数据收集-分析、建模-数据可视化及结论”组成。
(一)确认需求和数据选择
在进行数据分析时先要明确进行这项工作的目的是什么,这是进行数据选取和分析方法选择的前提。例如,无人机遥感大热,将其运用于农田缺水感知的研究已开展许多年,目前有结论指出多光谱归一化遥感植被指数(NDVI)越大作物越不缺水。那么我们回顾一下是如何从确认需求到得出结论的:(1)无人机有监测面积大,适合于大面积作业场景,(2)研究证明大面积种植农场效益更优,(3)有人提出设想,能否将无人机用于农田作物管理,(4)无人机感知手段有光谱、微波等,而能直观反应作物缺水的指数有土壤相对含水率、叶面积指数、气孔导度等等(数据选择),(5)确定研究课题,将遥感光谱和作物缺水联系起来(确认需求),(6)直观的光谱图像是无法反应作物水分状况的,需要建立光谱反射率同直观反应作物缺水的指数的联系(数据选择),(7)通过相关性、聚类等分析最终得出结论(数据分析)。
相同的道理,我们可以在换个思维方式,例如,某种消费现象已经发生(有益的),如果我们想让它再次发生(确认需求),就得对消费者的各项行为数据进行分析(数据分析),最终通过企业引导等手段增加行为发生的概率,达到目的。
这样的例子还有很多,就不一一举例了。
(二)数据收集
数据获取的方式有很多种,一种是利用一种装置,将来自各种数据源的数据自动收集到一个装置中。被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。另一种是借助网络平台优势,利用一些平台的公开数据或者爬取一些数据(爬虫需谨慎,看清楚能不能爬,别瞎爬)。本专栏所有案例获取的数据全部保存在云数据库,之后会单独写一篇云数据库使用的教程,以及如何用python选取云库的数据。
当获取到数据后,需要对数据进行清洗,清洗对象就是我们平时所遇到的异常值,比如,缺失值、重复值、字符串等,最终将其剔除或者转换为不影响最终结果的数值,然后将数据保存。
(三)分析、建模
分析建模的目的是将杂乱无章的数据整合、提取特征、找规律,得到简单的可以代表某种特征的数据。本专栏将通过案例分析的方式将部分机器学习算法整理出来,和大家共同学习,更好的去掌握这些算法。(线性回归、逻辑分析、线性判别分析、分类和回归树、朴素贝叶斯、KNN、Kmeans、SVM)
(四)数据可视化及结论
数据可视化可以将结果更加直观的展示,忘记从哪看到的这么一句话“数据可视化并不是简单的把数据变成图表。而是以数据为视角,看待世界。以数据为工具,以可视化为手段,目的是描述真实,探索世界。”可视化将抽象的客观世界具体的展现在人们面前,是人与这个世界的桥梁,因此,本专栏会利用python(有时间把R也用一下)和大家讨论一些可视化的方法,以及各类图的绘制。
二、各要素所需技能介绍
(一)数据存放调用所用到SQL语句
接下来我将介绍一些常用的SQL语句(没错,就是在这介绍,基本的数据库操作并没有多难,掌握基础语句即可(不够希望大家给我补充),后面在对SQL使用进行深化,以及如何用python操作数据库)
创建数据库
CREATE DATABASE 数据库名字
打开数据库
USE 数据库名字
查看数据数据库
#查看所有数据库
SHOW DATABASES
#查看当前打开的数据库
SELECT DATABASE()
删除数据库
DROP DATABASES 数据库名字
在数据库中创建数据表,根据具体数据类型,选择相应数据长度
CREATE TABLE 表名称
(
列名称1 数据类型,
列名称2 数据类型,
列名称3 数据类型,
....
)
#查看数据表
SHOW 表名称 FROM 库名称
#查看数据表结构
SHOW COLUMNS FROM 库名称
向数据表中写入记录
INSERT 表名称(列名称1, 列名称2, 列名称3) VALUES(值1,值2, 值3);
删除记录的数据
DELETE FROM 表名 WHERE 列名 = 值
更新记录的数据
UPDATE 表名称 SET 列名称 = 新值 WHERE 列名称 =值
添加、修改或删除列
ALTER TABLE 表名
#加列
ADD 列名 数据类型
#删除列
DROP COLUMN 列名
(二)数据处理
数据处理我依旧使用了python,这方面资料比较多,我不多说了,如有需要后续我会将链接放上来。
(三)分析、构建模型和数据可视化(本专栏的重点)
本专栏所有模型和可视化工具皆使用python编写,回在后面的案例分析提供源代码。此外,无python基础也无所谓,我会在代码讲解时附带讲解一些基础的python语句。
三、章节安排