拜访客户时,发现个有趣的现象
客户一般都喜欢聊大数据
而且是越大的领导越喜欢聊大数据
大数据就像饭局中的小酒
有种奇怪的”魔力“
往往能瞬间撬开客户的话匣子
↓
为啥呢?
↓
因为大数据紧贴上层业务
客户能够强烈感知到
很多切肤之痛,就藏在数据中
数据资产化/数据变现才是决策层关心的
如果你聊”交换机有多快,云主机有多猛“
客户多半无感
但是吧
大数据经常是聊得很嗨
可到了最终到项目落地时
却没那么顺利或甚至令人失望
↓
这,又是为啥呢?
说一千,道一万
是我们使用大数据的姿势
一直都没搞对
所谓“聚数”,就是企业把各个业务系统中使用的数据、产生的数据、历史数据,以及第三方相关数据,“倒腾”到一起,变成“数据资产”。
但这个倒腾的过程,一点都不愉快。
首先,数据又“多”又“散”,东一坨,西一堆,格式又不统一,还在不断增长和更新。想要把它们收拾到一起,想想就头大。
拾掇好各种数据源之后,想整合数据就更“里根楞”了,这需要经历一个复杂的抽取、清洗、转换、加载的过程,这套流程,被称为ETL或ELT。
先T(Transfrom)还是先L(Load)不重要,总之都很麻烦。你想想不同的数据源,有多少种接口就头大了。折腾半天,数据质量还未必达到业务要求。
今天就有人来问我,能不能给介绍个ETL专家。其实光有专家还不够,还得有工具、花时间、可持续。企业把原始数据变成数据资产,绝不是一锤子买卖。
即便一顿操作猛如虎,把数据变成了资产,想把这些资产真正用起来,又是难上加难。
企业往往会追逐各种大数据平台、数仓、数据湖等概念,大数据基础设施建了千千万,冤枉钱花了万万千,却迟迟不见效果。
搭了台,修了仓,挖了湖,付出了巨大的建设、运维成本,却迟迟享用不了传说中的“大数据盛宴”。
久而久之,人见人爱的“小甜甜”被磨成了不受待见的“牛夫人”。
其实,“牛夫人”也不必太沮丧,从当下趋势看,大数据正在逐步走出幻灭低谷,开始“稳健爬坡”了!
但是,但是——
大数据业务是与业务场景密切相关的渐进式创新,并不适合“基建狂魔”式的突击性建设。
一掷千金“建库修仓挖湖”,往往都是打水漂。
正确的套路应该是:深入场景、逐步投入、按需使用、渐入佳境,省时省力省钱见效快。
看到这几个“装B”小词儿,是不是想到点啥了?
没错,企业应该用“云”的模式,高效率、渐进式的进行大数据实践,云上数仓、云上湖仓、云上数据集成……
讲到这里,我们就不难理解以“云上数仓”为卖点的大数据SaaS公司Snowflake,在IPO后被资本热捧,市值一度摸高到7300亿RMB。
可见,无论资本圈还是产业界,都一致认同,用云SaaS/PaaS的模式,才是玩大数据的正确姿势。
姿势定了,接下来的问题就是,云上大数据方案看着也挺多,究竟该怎么选?
我们不妨来瞅瞅,云上大数据的顶级玩家——Azure是怎么玩的。
Azure如何“聚数”?
首先,看Azure如何帮助企业“聚数”,把千奇百怪的数据源联接起来,并完成抽取、转换和加载。
Azure用于聚数的神器,叫做DataFactory,数据工厂。对于这个工具,我准备了灵魂三问↓
Azure 数据工厂内置了90 +免维护的连接器,可以轻松整合各类数据源。
云上的、云下的,结构化的、非结构化的,传统的、新潮的,本云的、外云的,统统照单全收。
Azure数据工厂可用零代码构建ETL/ELT进程,拖拖拽拽,如同搭积木一般,就把这套流程搞定了。
完全不用担心,Azure数据工厂是无服务器(Serverless)架构,你不需要为转换数据购置或租用大量云资产,更不必担心资源空转。
Serverless模式呼之则来挥之则去,根据用量弹性缩放,按业务流程的运行次数来收费,比如,每运行1000次,收费1刀。
多用多收,少用少收,不用不收!
如果遇到跟线下的微软系数据整合,比如SSIS服务,还可以享受Azure混合权益优惠,节约高达88%的成本。
所以,用云服务来做数据集成,是最经济实惠的。
Azure如何“用数”?
企业完成聚数以后,下一步就是用数了,这是个因人而异、循序渐进的过程,一般分为两大类典型需求↓
AI型:用数据做训练,通过机器学习等方法得到模型,用于人工智能和数据科学研究,驱动业务创新。
针对这两大类“用数”需求,Azure各有一套神器,并且可以互相配合、双剑合璧。
“Synapse”是以数据仓库为核心的一站式“无限分析平台”,糅合了数据集成、企业数仓、大数据分析能力。既可以满足BI应用,也可以用于机器学习。
通过Azure Synapse Link,还可以直接操作Azure Cosmos DB中的数据,实时获得分析结果。
作为全球第一个云原生聚合分析平台,它可以支持近乎无限的数据规模,不怕你数据太多,就怕你数据不够。
“Synapse云数仓”中,既有标准SQL池,也有无服务器SQL池,还有用于大数据分析的无服务器Spark池,多快好省满足各类分析需要。
Azure这个“云数仓”有多实惠?根据官方对比,Azure Synapse Analytics比其他云上数仓快14倍,节省94%成本。
所以,如果你有构建云数仓的需求,不妨来薅一薅Azure的羊毛。
这是个全托管式大数据分析平台:数据湖底座+Spark流分析引擎,AI、ML、科学计算全能整。
你可以认为Azure Databricks是个集成了Spark引擎的数据湖,同时,它又不止于数据湖,可以与Azure云上一大票数据工具和服务紧密集成。
更有意思的是,Azure Databricks采用了Delta Lake技术来加强数据湖的存储层,比如提供ACID事务性、流批统一化等等。同时,还可以对数据逻辑分层,提高湖内的数据质量。
这种机制,可以为上层业务供应“质量”更好的数据,让AI的训练更有效率,让BI的洞察更加犀利。
在Delta Lake的加持下,数据湖拥有了一部分数仓的特性,成为当下炙手可热的Lakehouse,湖仓一体。
在企业“用数”的实际过程中,如果侧重BI,辅助AI,可先尝鲜Azure Synapse Analytics,如果AI为主,BI为辅,则可优选Azure Databricks。
Azure的两大数据服务,也是你中有无、我中有你,最终殊途同归,无论可选择那条路入手,都能享用大数据盛宴。
从“聚数”到“用数”,Azure提供了三大服务:Azure DataFactory数据工厂、Azure Synapse Analytics无限分析、Azure Databricks湖仓一体。
但这只是Azure大数据能力的冰山一角,三大服务可以与更多Azure服务无缝集成,提供“湖、仓、库、AI、BI”五位一体的大数据服务。
这些服务,开箱即用,跨越云端混合、多云混合、新旧混合,跨越任何数据格式,并且拥抱开源不锁定,再由微软多年的安全与合规执念加持,稳得一匹。
这场大数据盛宴,交给微软厨子操盘,妥了!
后记:在刚刚结束的微软全球技术大会中国站上,有很多关于Azure大数据分析的分享,您可以扫码回放视频,或者阅读原文下载Azure analytics白皮书,看完这些干货,说不定你就能和客户愉快的聊大数据了