众所周知,数据库的数据管理是一项流程十分复杂的系统性工作,不仅涉及前期的数据清洗同步等,还涉及后期数据建模等。这些操作一般都是通过SQL语句来完成的,而大段的SQL语句不仅对于没有基础的非数据从业者来说难度过高,而且即便是从业者,SQL语句无论是可读性还是可编辑性都不如图形化交互直观。

因此,一些公司希望通过图形化界面让普通人也可以操作,就像windows系统一样。后来就有了这样的工具出现:

有了这个工具,别再说你不会建模了_数据库

 

上图是一个名为dbForge Query Builder for SQL Server软件的界面,从图中可以看出这款工具虽然用的是图形化的思路,但无论是界面友好度还是各个功能的设计,对于普通人来说还是颇有难度。

所以我们做了一款,不罗嗦,上图:

有了这个工具,别再说你不会建模了_数据建模_02

 

这个工具是偶数数据中台Oushu Lava中新增加的功能模块——数据工厂。数据工厂是一个可视化的数据处理工具,用户通过拖拽的方法将一系列节点串联起来,就可以实现对数据库的复杂操作。

之前,数据库相关人员如果想要自由地操作数据库中储存的海量数据都需要手写脚本外加调度工具来实现。在数据工厂中实现了图形化的离线和在线数据建模、开发的。

有了这个工具,别再说你不会建模了_sql_03

 

如上图所示,在实际场景中,不需要业务人员具备SQL经验,也可以轻松地完成业务表的筛选、聚合与连接,甚至是电子围栏监测、图谱关联等操作。

 

数据工厂的应用场景包含但不限于:

  • 大批量离线数据的定期处理
  • 在线流数据处理
  • 为机器学习做数据预处理、特征工程
  • 数据清洗
  • 数据分析

 

不仅如此,这个模块还具备这些优势:

支持离线计算和流计算两种方式

数据工厂运行时使用的数据源,既可以选择数据库中的结构化数据,又可以从消息队列中接入流式数据,满足不同业务场景的需求。离线数据的批量计算利用云原生的分布式数据库的优秀性能,快速进行大量业务数据的处理;而流式数据的计算则能够给出秒级响应,具有高实时、低延迟的特点。

可以实现复杂的运算逻辑

数据工厂包含了充足的功能模块,仅仅通过单个节点的配置,就能快速实现去重、筛选、分组、聚合、连接等常用数据库操作。通过串联不同节点,或是加入自定义的SQL代码节点,还可以实现复杂的功能逻辑。

提供空间数据处理功能

OushuDB支持使用Postgis存储空间数据并进行计算。在数据工厂里,也提供了处理地理信息的功能。例如利用电子围栏数据和人员行动轨迹进行报警筛查等。

支持连接图数据库

数据工厂提供图谱关联功能,利用RestAPI通信,可以与任何其他的业务系统进行数据交互。例如利用图数据库寻找人员之间的关系等。

完全支持作业调度

有了这个工具,别再说你不会建模了_机器学习_04

一个编写完成的数据工厂模型,可以作为LAVA“作业调度”系统的一个执行节点使用。可以配置运行频次和配置模型输入输出表,支持按时间不同使用输入输出表的不同分区。配置完成后,该任务就能完成对数据库进行定期操作,避免了编写脚本的繁杂操作。还可以通过编辑模型的方式,快速地纠错和更新迭代。

一键导出脚本功能

完成数据模型的建模工作之后,也可以将整个模型转换为一个脚本文件。系统会自动对模型内所有的查询操作进行优化,生成优化后的脚本。

细粒度的权限管理

在使用过程中,依据业务需求,允许为数据库中的数据表建立映射,用层级目录的方式重新组织数据;可以为任何目录、表和数据模型赋予增删查改的权限,方便开展不同部门间的协作。

 

 

关于偶数科技

⌈偶数科技⌋是一家领先的AI和大数据产品和解决方案提供商,致力于AI赋能全球各行业客户。公司的愿景和使命是 “让人类只为兴趣而工作”。偶数科技的产品已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。目前⌈偶数科技⌋已经获得多轮顶级VC的投资。⌈偶数科技⌋是微软加速器成员企业,并入选美国著名商业杂志《快公司》“中国最佳创新公司50”榜单。