原标题:数据讲述业务的故事: 借助智能平台还是从零写Python

ORACLE

数据讲述业务的故事

借助智能平台还是从零写Python


2

ML

数据能讲述业务的故事,但是怎么落地?是找IT自己搭建一套数据平台,再雇佣一个数据科学家撰写Python,还是有更方便快捷的方法?

本文的案例就是客户亲身对两者的评估。一种方式是传统的购买和IT搭建技术平台,撰写数据科学代码。另一种是租用云服务让业务人员无需输入任何代码,即可完成准确的机器学习。评估结果,说明根本没有编码知识的最终业务用户也能够非常容易地使用这个方法将机器学习技术应用于其自己的数据,来讲述业务的故事。

案例评估

Oracle ADW和OAC真能让数据科学和机器学习经验最少的业务用户直接在其中编写简单的端到端数据科学流程来讲述业务故事,而无需编写任何Python复杂的代码

对比的技术

方案1: IT自己搭建和管理数据库,在Jupyter笔记本中用Python 3.6编码

方案2: 直接使用Oracle业务数据平台,ADW和Oracle Cloud Analytics


比较结果


客户用什么对两者进行评估?

客户评估的基准是用一个公开的Python项目。数据集直接从Kaggle机器学习项目竞赛中提取,该项目竞赛旨在测试数据科学家使用机器学习模型和数据科学技术预测房价的能力。


这本来是一个数据科学家的Python实验项目,如果你感兴趣,也可以通过以下连接从Kaggle上了解到这个项目,并下载测试数据集。

https://www.kaggle.com/kenhunt1010/basic-lasso-including-data-prep?source=post_page-----b19309aa3224----------------------

预测准确度评分怎么来的?

评估过程中使用Python撰写代码获得的机器学习模型和用Oracle业务数据平台技术训练的模型都将提交给Kaggle进行独立评分。有关评分的更多信息,包括数据说明和详细信息,可以访问:

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

以下是此案例比较过程的简单说明

处理流程

下面是整个过程


数据探索

第一阶段是进行一些数据探索,来了解数据集,找出数据集的更多信息。

借助Oracle业务数据平台的“相关矩阵”展现方式能让业务人员对整个数据集有所了解,以帮助探索和理解数据指标之间的业务关联。


识别关系和异常值

接下来,确定高度相关的指标并将其绘制出一个分析可视化视图以进一步了解它们。主要目标是呈现任何线性关系并识别数据集中任何异常值。

在此特别有用的一项功能是能够快速选择数据点并在散点图中更改其颜色。这样可以轻松在最左侧的散点图中突出显示异常值(红色)。

Oracle 业务数据平台的注释功能在这里同样有帮助,特别是如果分析的部分发现将在以后进行发布。


解释目标变量

数据科学过程的下一步是了解有关目标变量的更多信息,这非常简单,在Oracle业务数据平台中打开数据集,确定了指标并单击鼠标右键。选择“解释”。Oracle业务数据平台的OAC在这里做了所有艰苦的工作。 全自动借助OAC底层的机器学习算法,所有可能显着的关系都将自动呈现。



可以选择单个分析并将其放在Oracle业务数据平台的画布上以进一步进行挖掘。

此功能非常出色,它消除了过程中的大量时间,只需要单击按钮即可轻松识别数据集中的业务模式。

使用Oracle业务数据平台OAC的数据流进行数据准备

下一阶段是准备数据,以便可以将其用于训练模型。创建了以下数据流以对数据执行先前确定的操作。删除先前确定的异常值,添加一个可能有用的计算列(总表面积),该列是通过将数据集中的其他列相加而创建的,删除对预测无用的计数列。


新的业务数据集已保存,也可以在此处更改输出数据集的数据类型。这非常有用,因为这意味着我们无需编写代码即可在业务自己的数据平台中保存自己的业务数据,不仅仅是文件,也不是IT才能管理的数据库。

模型选择与数据训练

Oracle业务数据平台的“数字预测”模型类别中有4种不同的模型。完全不需要写任何代码。


出于评估的目的,我们选择了“用于模型训练的线性回归”,它提供了一种套索回归方法,该方法与作为评估对比基线创建的python代码匹配。

应用模型

拥有训练后的数据模型,我们现在需要将此模型应用于测试数据集。测试数据集被上载到Oracle业务数据平台中并保存为数据集。然后,我们创建另一个数据流,在其中选择“应用模型”。选择“应用模型”后,我们会看到一个“模型”列表-在其中会填充我们刚刚训练的模型。我们应用新模型,然后选择保存预测的列的名称。


最后我们整理最终的预测结果并提交给Kaggle进行评估打分,我们提交的数据集仅包含一个ID和一个预测信息。

回到我们最关心的问题

以上是一个客户用真实,公开的数据科学项目数据,在甲骨文业务数据平台OAC中的进行的评估和结论:

不需要进行大量的机器学习培训,只需对通用数据科学流程的工作原理有一个基本的了解就能用数据讲述业务的故事

从环境准备到0代码实现,所有工作所需时间大大缩短

通过ADW,后台数据库管理工作几乎降低到0

甲骨文业务数据平台

用数据讲述业务的故事