本文为“2024国产数据库创新生态大会”深算院采石矶、钓鱼城系统技术总监别彬彬的演讲实录分享,主题为《金融科技对智能化创新系统的机遇与路径》,欢迎阅读。

各位领导、嘉宾,下午好!非常荣幸今天能与大家一同探讨金融科技创新的话题。

智能化系统新范式:

AI+ = 机器学习 + 逻辑规则

分享之前,我想先和大家讨论一个有趣的问题:成吉思汗和发现万有引力定律的牛顿之间有什么关系?这个问题我曾问过专业学者和大型语言模型,包括ChatGPT,得到的回答都是:二者都是影响人类历史的伟人。然而,它们之间的实际关系却并未揭示出来。

我们相信这个世界上人、事、物总有着千丝万缕的关系,基于这种好奇心,我们试着用一些新方法、新技术寻找答案。通过图关联技术结合逻辑推理,我们发现成吉思汗对欧洲的征战导致物资交换频繁,引发鼠疫传播,进而引发伦敦瘟疫大爆发,这使得牛顿被迫离开剑桥大学,回到乡间度过了高产的两年,并在此期间发现了万有引力定律、微积分原理等重要理论。这样深层次的关系,专家做不到,千亿参数模型做不到,但可以被图关联分析揭示出来。

在深算院,我们主要有三大核心产品:崖山数据库系统、采石矶数据质量系统,以及钓鱼城数据分析系统。今天我想着重介绍后两者。

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径_yashandb

采石矶:自动数据质量冲突发现与可信修复

数据质量问题一直是困扰数据工作者的难题。OpenAI为了训练ChatGPT,花费了长达七年时间准备语料,而仅花费了一个月训练模型,这充分说明了数据质量的重要性,数据质量也是公认的大数据最难问题。樊文飞院士早年在贝尔实验室就一直研究数据质量的修复问题,随后提出了大数据质量保证模型——REE理论,能够自动化地发现数据中的错误并进行可信修复。采石矶系统可以完成两项重要任务:一是自动发现数据中的错误,二是根据发现的错误进行可信的修复。基于这些能力,采石矶系统在一些关键领域做出了很显著的成果。

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径_yashandb_02

首先是数据连接领域,在与国内最大的物流集团公司的合作中,该物流公司希望对17万张数据表进行主题归整。人工方式进行了两年时间,且只能完成10%的进度。而采石矶系统在短短四天内就完成了这一任务,梳理了17万张数据表与三张主数据结构表之间的关系。

其次是数据要素领域,采石矶系统目前已在上海数据交易所上线,负责买卖双方的数据质量评估和提升。上海数据交易所目前是国内最大的、最成功的数据交易机构之一,采石矶系统通过快速发现数据中的错误,帮助客户增加数据资产的价值。我们不仅能发现错误,还能进行数据质量提升,实现数据资产价值进一步提升。

最后,在大模型语料准备领域,采石矶系统也有重要的应用,主要体现在三个方面:一是非结构化数据的解析与提取。大语言模型的训练需要大量HTML或文本数据,这些数据通常是非结构化的,需要进行解析提取,占据了数据准备工作量的40%。二是人机协同标注,据最新的实验结果,采石矶系统在辅助标注方面的准确率超过了美国独角兽企业Scale.AI。三是文本数据中的事实性错误发现,采石矶系统可以发现并修复文本语料中的事实性错误,减缓大模型在训练过程中产生“幻觉”。

钓鱼城:逻辑与统计结合的工业数据决策系统

钓鱼城数据分析系统通过将逻辑推理与机器学习相结合,在图数据结构上实现统一推理。其核心理论GAR创新性地将机器学习预测结果和逻辑推断实现统一框架,一方面,我们将机器学习的结果放在X中,可提高数据决策的准确性,另一方面,将机器学习的结果放在Y中可以实现对黑盒模型的可解释。在工业应用场景中,钓鱼城系统还展现出自动化程度高的优势,对比机器学习,其建模过程中需要大量的人工操作,如人工洗数据、人工特征工程、模型调参,这些工作非常依赖程序员的主观能动性,但钓鱼城系统的自动规则发现则使整个分析过程高度自动化。

钓鱼城系统已在两个主要的行业做了应用。首先是制造业,例如电池制造、化工、烟叶配方设计等,逻辑推理的可解释性使得钓鱼城系统能够辅助工业决策。特别是在锂电池生产过程中的化成分容环节,钓鱼城系统已经在国内头部电池厂上线并跑,成功处理了600万支电芯的容量预测。逻辑推理方法的引入使得系统在面对复杂决策时具有更高的可解释性和可靠性。

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径_崖山数据库_03

其次是银行金融领域,钓鱼城系统帮助银行在商机与危机识别方面取得了显著成果。我们将银行的数据分析分为“商机”和“危机”两大类。商机方面,我们在零售营销、智能推送、投流拉新等环节取得了突破,系统的实际应用中将ROI从1.7提升到4.8。风险控制方面,我们与大型银行和消费金融机构合作,在反欺诈和高危群体识别等方面,将风险人群的识别准确率从40%提升到71%。

未来,钓鱼城系统将致力于在银行领域构建企业级的新型数据经营平台,依托樊院士的核心理论,将机器学习与逻辑规则结合,利用增量图计算技术,形成“圈链群”思路,为银行的商机和危机管理提供一站式服务,真正实现业务人员在系统上的自主操作,无需IT人员介入。

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径_数据库_04

最后,我们希望通过钓鱼城、采石矶这两个基础软件平台实现真正的AI+,只有高质量的数据与先进的智能系统相结合,才能从数据中挖掘出深层次的价值。谢谢大家!

YashanDB演讲实录|别彬彬:金融科技对智能化创新系统的机遇与路径_数据库_05