一、 AI平台的概念
“AI平台”这个概念,也是最近两年才逐渐流行起来。在2015年之前,与AI平台概念比较相近的是数据建模工具,如比较著名的SAS跟SPSS等。2016年以来,伴随AlphaGO引领着AI概念的广泛传播,AI平台逐步在国内流行起来。国外在定义AI的概念时,主要根据其两大用途进行划分,一是通过机器学习的能力进行数据分析,一般称之为机器学习平台(Machine Learning Platform)或者数据科学平台(Data Science Platform),另外则是通过NLP或者CV接口提供通用AI识别能力,通常称之为AI智能接口。而国内在定义AI平台时,最初只是将“通过云端方式提供深度学习算法或者深度学习模型”称为AI平台。随着深度学习热度的褪去,这个市场由于没有足够的落地场景而冷却,AI平台也随之将数据科学平台的能力与深度学习算法能力逐步结合起来。2018年以来,数据中台及AI平台的概念逐渐兴起,也有不少人将AI平台的概念融入中台,称之为AI中台。
我们认为,用AI中台去概括AI平台的功能是远远不够的。这是因为当我们将AI平台与数据中台做对比时,可以发现:数据中台提供的能力是将通用的数据抽象化、服务化以及资产化;对于AI平台来说,除了上述能力外,还提供了数据处理、数据建模、数据分析以及模型上线等全周期能力。而这些能力不是单单中台这个概念能够概括的。
二、 AI平台的发展历史与功能特点
AI平台的发展是随着AI应用的落地逐步深入的。2015年及之前的时期,由于深度学习没有大规模的落地,传统的机器学习或者数据分析手段则会更多地配合统计分析做数据挖掘。所以这时,AI平台只是一个数据之上的工具。
而从2012年开始盛行的大数据技术,逐渐模糊了大数据与数据挖掘的界限,也使得机器学习技术向分布式、大规模、集群化发展,一些公有云厂商也开始提供机器学习的服务平台。而在2016年之后,以深度学习为代表的所谓AI技术逐渐进入公众视线,机器学习平台开始与深度学习平台融合,我们也开始将这个统一平台称之为AI平台。
从AI平台的发展史中,不难看出,这是一个功能复杂、多技术、全场景的赋能平台,也是一个糅合了传统数据挖掘能力、大数据能力以及深度学习能力的分布式平台。因此,我们从以下三个维度来总结AI平台的能力:
-
产品维度:数据处理的全生命周期
AI平台应该具备数据接入、特征处理、模型训练、建模分析、模型上架、模型运行、线上业务接入等数据处理的全生命周期的能力。通过AI平台,一般业务人员或者数据科学家能比较轻易地将数据分析或者是AI建模相关的服务落地,无论是以形成数据报表还是提供对外服务的形式。
-
场景维度:跨行业的基础平台
AI平台不会局限在某一个特定的行业,它将服务于所有需要数据分析能力的行业。但这不是说AI平台只具备通用算法,而不具备将通用算法在不同行业落地的能力。比如,在星环的AI平台Sophon里,我们就提供了“Model Mart”,能够将不同行业的模型抽象成模型模板。
-
市场定位:通用的PAAS层服务
AI平台自身不是应用,不能直接发挥其业务价值。同时,它也不是最终的虚拟化IaaS平台,或者数据存储服务平台。它的定位应该是能通过一个平台去提供不同业务部门需要的数据分析能力或者AI模型。
三、 AI平台的技术变迁
星环科技在AI平台的实践之路,基本代表了AI平台的发展之路。一方面,构建AI平台需要较为深厚的技术团队来从底层打造技术架构。另一方面,AI技术要在不同行业落地,需要与不同行业深入打磨迭代,形成可落地的解决方案。
从技术变迁的角度看,AI平台从兴起到目前的发展基本上可以分为四个阶段:
1. 分布式机器学习阶段
分布式机器学习的兴起,是由大数据技术落地来驱动的。随着大数据技术的兴起,分布式架构逐渐成为行业主流。这是因为传统的数据分析技术已经不能满足大数据上的分析需求,无论是技术公司还是不同行业的公司都逐步采用分布式架构来做数据分析。另一方面,开源领域的百花齐放,使得相关技术堆栈逐步形成配套体系。
在这个阶段,AI平台基本上是基于大数据平台相关的技术堆栈来形成AI相关的技术方案。主要是以Hadoop以及Spark相关框架为核心,提供数据接入、特征提取、数据建模、可视化分析等功能。
2. 深度学习融合架构阶段
随着以深度学习为标志的AI技术开始落地,机器学习平台与深度学习的融合也变成一个趋势。融合的技术架构,需要有一个通用的技术架构层来支撑。星环在对应的AI平台Sophon中提炼了专门的框架层,通过中间层来实现同时对底层分布式计算框架以及深度框架的对接。
由于深度学习的需要,GPU的需求成为了AI平台的必要配置。因此,Sophon的技术架构层需要增加对GPU的虚拟化调度的需求。
3. 虚拟化分布式架构阶段
随着云化方案的普及,尤其是kubernetes与docker技术架构的不断优化与应用,虚拟化的分布式部署方案越来越成为行业主流。
对于AI平台来说,通过虚拟化技术能够解决三大块的业务痛点。首先,对于模型训练来说,以往通过物理的分布式运行,尤其是通过物理YARN来做资源调度,没办法与物理资源进行关联,也没办法做细粒度的资源调度与动态扩容。其次,对于模型部署来说,原有物理部署的方式,对环境依赖比较大,无法实现比较灵活的上架、线上监控与模型精度比对等功能。最后,由于AI技术的发展迅猛,一些新的框架与类库无法较容易地直接应用于平台,而通过docker镜像,就能比较灵活地针对不同用户进行定制化建模环境的切换。
虚拟化部署带来的巨大优势也影响了AI平台的部署模式,从原来的物理部署,已逐步迁移到私有云、公有云的虚拟化部署,与云端资源管控进行有效结合,从而可以及时评估AI平台的性价比。
4. 云边一体阶段
随着5G的逐步落地,以及物联网场景的拓展,越来越多的场景,需要用到AIOT的整体解决方案。所谓的AIOT场景,就是将AI的能力慢慢拓展到物联网的边缘设备,使得边缘端也具备AI的能力。
而对大多数的AIOT场景来说,固定的,单一的AI能力,无法提供长期有效的业务支撑。常见的场景,比如设备的预测性维护,工厂或者园区的安防监控等等,往往针对的是多变的场景,需要AI技术提供方提供动态的AI模型。
因此,云边一体的方案往往比较适合这一类的场景。整个业务流转的流程如下:数据通过边缘智能设备接入云端=> 云端AI平台将数据转化为AI模型 => AI平台通过边缘插件将AI模型部署到边缘端 => 边缘AI模型通过分析,过滤掉大多数无用数据,从而提升带宽的利用率。
星环Sophon提供的方案是通过Edge插件,打通边缘端与云端,在边缘端通过EdgeManager与云端进行整合,从而能支撑大多数的AIOT场景。
四、 AI平台的行业实践
AI平台的技术发展,离不开在不同行业的落地深耕。我们将在深入了解的几个相关行业中选择几个重要的特征维度,用于描述与区分不同行业的发展背景与AI平台落地的进展。
1. 原有相关技术使用情况。比如,对大多数银行而言,在数据分析场景中,之前主要使用的是SAS,现阶段利用新的AI平台进行工具替换,是一件自然而然的事情。
2. 数字化转型状态。对于大多数传统行业来说,数据化转型还停留在第一阶段——数据的采集与整理。那么对于这些行业来说,大家首先考虑的当然是怎样把数据采集并存储好,而不是基于有效的数据去进行一些深度挖掘与建模。
3. 自身技术水平。对于大多数传统行业来说,AI平台的落地是与该行业内相关从业人员的技能水平密切相关。越是存在较多AI专业人才的行业,AI平台发展速度越迅猛。
4. 行业整体经营水平。越是行业形势普遍较好的企业,越需要AI平台去覆盖该企业的各条业务线,进行智能化改造。而整体盈利能力比较困难的企业,更多考虑的往往是企业的生死存亡。
5. 痛点需求密集程度。对于某些行业来说,AI技术带来的收益并没有那么高,企业自然没有足够动力去改造与推动AI落地。而对一些有真实痛点的企业来说,如果AI技术能帮助企业挣钱或者省钱,企业将会有足够动力去推动AI落地,从而逐步加大对AI平台的投入。
针对上面的特征维度,我们将相关行业总结在下面的图表中,并会选择一些行业深入介绍。
序号 |
大行业 |
细分行业 |
原有相关技术使用情况 |
数字化转型状态 |
自身技术水平 |
行业整体经营水平 |
痛点需求密集程度 |
1 |
金融 |
银行 |
较多 |
成熟 |
中等 |
较高 |
较高 |
2 |
券商 |
较多 |
成熟 |
较高 |
较高 |
较高 |
|
3 |
能源 |
电力 |
较少 |
较成熟 |
中等 |
较高 |
较高 |
4 |
石化石油 |
较少 |
较成熟 |
中等 |
较高 |
中等 |
|
5 |
政府 |
所有机构 |
较少 |
不成熟 |
较低 |
中等 |
较低 |
6 |
制造 |
汽车 |
较少 |
不成熟 |
中等 |
中等 |
中等 |
7 |
其他制造 |
较少 |
不成熟 |
较低 |
较低 |
中等 |
1. 金融-银行
AI平台在银行界的落地是相对较早的。SAS早已在银行业立足,并长期为银行提供核心的风控与营销能力。考虑到,银行的核心业务就是将储蓄与贷款业务推出去,并在良好的风控条件下控制坏账率和吃利差。一方面,SAS的普遍落地使得银行对AI平台本身的价值较为认可。另一方面,互联网金融、消费金融贷等新兴业务模式的兴起,使得原有的SAS平台不足以支撑新业务,甚至由于数据量的大规模增加,原有业务的开展也受到了较大阻力。
除了通过AI平台来进行风控与营销的常规数据分析类工作,银行也逐步尝试将知识图谱引入风控与营销的业务流程中。通过AI基础平台与知识图谱的打通,能有效地将业务知识与分析推理联系起来,从而走向真正的智能化。
因此,对于大多数AI平台厂商来说,银行客户都是极具落地价值的优质客户。银行本身作为替换型市场前期不需要太多的市场教育,同时,其体量也较大,有进行试错与探索的空间。
2. 金融-券商
将券商从金融行业里面单独拎出来的一个原因是它具有代表性。与大多数行业的从业素质对比,券商行业的整体从业素质较高。对应地,AI平台在券商行业落地的很大一个原因就是,券商从业人员自身可能就是平台的深度用户。
我们看到,券商将AI平台作为量化建模、投研分析人员日常建模研究的工具平台,充分利用了AI平台建模灵活性以及资源虚拟化的特性,从而实现资源的合理分配,并能够充分利用现有数据,进行量化建模或者投研分析。
当然我们看到知识图谱对券商来说也非常重要,知识传递、舆情监控是投研、投资经理等关注的重要特性。这是因为投资本身具备与市场的紧密相关性,及时得到相关消息,并且进行知识传递与推导,哪怕只领先对手10微秒,也能带来极大的交易优势。
3. 能源-电力
作为一个肥沃的垄断行业,电力行业成为了很多技术创新型企业的最佳目标客户。然而,由于其行业垄断特性,也使得它本身形成了较大的进入壁垒,同时也对技术要求比较高。
作为top薪资的国企,电力行业曾经吸引了全国最优秀的毕业生,这也就意味着电力行业本身从业人员的素质并不低。同时,这也是电力公司对AI平台的热情和动力比较高的原因之一。
在实际落地过程中,电力行业的普遍痛点还是在于如何降低发电、输电、配电、用电端的人工成本,并保证安全操作。在这种情形下,对视频图像分析、边缘计算等技术产生了强烈的需求。另外,电力行业的业务核心在于如何提升发电、输电、用电的整体效率,减少损耗。这是许多电力研究院的核心研究课题,其本身也会基于一些分析工具去做。而对于AI平台来说,这也是很不错的进入机会。
4. 能源-石化石油
石化石油行业与电力行业类似,一方面由于垄断特性导致壁垒较高,另一方面也需要非常高的技术能力来保证大规模的场景落地。除了销售类场景,石化石油行业也有管道监控、保证安全施工等场景需求。
5. 政府
政府本身具有大量的优质数据,大多数政府部门需要的功能支撑相对简单,不需要使用过多深度技术。然而,有一些部门还是对特定的技术有深度的刚性需求。
6. 汽车制造
汽车作为国家的支柱行业,研发能力是保证其竞争力的核心,因此大多数车企的核心研发机构都会对AI平台有一定的需求,以支撑他们的整体智能化转型。
然而,这两年,整个汽车市场进入寒冬,导致其行业的AI整体需求还是处于比较焦灼的探索阶段,未来还有很长的路要走。
7. 其他制造
虽然国家已将智能制造提上议程,但也并没有真正激活整体制造业的转型升级热情。这是因为,对于大多数制造业企业来说,当前最核心的痛点是如何做到数字化转型的第一步——将原本没有采集上来的数据先做收集存储。另外,对许多利润率不高的制造业而言,将资源投入到最迫切的地方是他们决策的核心要求,因此整体较为保守。所以云化的按需使用的AI平台是他们比较偏好的选择。
五、 未来之路
AI平台的发展之路还很长,其中有技术的迭代演进对企业创新的要求,也有在不同行业落地过程中的业务碰撞带来的困难。然而,我们还是明显地感受到AI平台自身的热度在逐渐增强,使用场景也变得越来越宽。我们对AI平台的发展做出了以下三个判断:
1. AI平台在5年内会出现类似于数据库的事实规范。所有软件做的事情,其实是针对输入进行算法调用,然后输出。如果数据库是对数据的输入输出进行一个抽象化表述,那么AI平台就有可能成为中间算法调用的一些抽象化表述。
2. AI平台不仅针对AI算法,而且可能会成为所有数据处理手段的抽象平台。如上述所言,AI平台会逐步对算法逻辑进行抽象,而这个过程对所有非AI算法也适用。站在更高的维度,可以把AI平台看成是数据处理的一个大工具集。这从用户的使用趋势也可以看出,用户期望AI平台能具备所有数据处理的功能。
3. 云化边缘化同时发生,将深刻改变AI平台的应用范畴。一方面是通过云化,将AI平台服务化,能更容易地为用户提供相应的技术支撑,另一方面是通过边缘化,能大大拓展AI落地的疆域。