70年前,数据第一次真正发挥价值

20世纪50年代中期以前,数据管理过程中的每一环每一步都需要专业人员对计算机进行相应的操作,所以又被称为人工管理阶段。

在这一阶段,除国防等政府部门和科研机构外,只有少数企业使用计算机来存储数据。当时的计算机运行十分原始缓慢、笨拙,需要大量的体力劳动来完成操作,并且存储设备(打孔纸带)的容量极其有限。

image.png

这些机构和公司往往需要用几间屋子甚至整整一层楼的空间来存储和“管理”仅仅用来存储数据的打孔纸带,并用更大的空间来部署和维护分类器、制表器等工作单元,以完成数据管理。

由于存储设备的限制,数据无法做到长期保存。同时因为专门的数据管理软件尚未出现,数据只能由使用数据的具体应用来管理,而每个程序又相对独立,程序间的数据无法做到共享,产生了大量的数据冗余。

尽管人工阶段的数据管理需要投入大量人力物力并且限制多多。但相比采用计算机之前的“纯人工模式”而言,人工管理下的数据管理,第一次让数据发挥出了独特的价值。

文件系统,催生线上交易萌芽

上世纪50年代末,相比机器语言可读性更高的汇编语言开始流行。数据管理也在这时进入了第二个发展阶段:文件系统阶段。更多的企业和机构开始将计算机技术应用到数据管理之中。

造成这种变化的原因有二:一来是计算机的存储设备方面有了重大突破,体积更小、容量更大也更易保存的磁盘与磁鼓取代了之前的打孔纸带和磁带;再者操作系统中出现了一般被称作文件系统的专门的数据管理软件。

image.png 早期磁鼓尽管十分笨重,但相比之前的存储设备的容量大大提升

文件系统能够将数据以文件的形式长期存储于磁盘或其他设备之中,系统自身就可以完成一些例如、分类、排序这样的简单数据管理功能。而且系统还实现了数据的逻辑结构与物理结构脱钩,使数据具备了一定程度上的独立性。

但同样因为数据以文件形式存储,导致数据严重冗余的问题仍然存在。每一个数据(文件)都是独立的,当不同的需求使用相同的数据时,必须分别建立文件,无法共享。

在这一阶段,数据管理催生了线上交易的萌芽。1960年左右,美国金融、医疗领域的一些公司,开始尝试在线交易。它们使用文件系统来读取和记录相关的数据,对其进行及时更新,并将更新后的数据发送给分处不同地点的交易双方,以此来保证远程交易的效率。

image.png 1960年代的华尔街,线上交易正在萌芽

数据库管理,走向云和AI的未来

20世纪6、70年代,伴随着硬件性能的又一次突破以及高级语言的成熟,计算机的应用范围呈指数级扩大。企业对同时满足多种应用,有效管理更多数据的需求愈发强烈,在这一背景下,数据库技术应运而生。统一管理数据的专门系统——数据库管理系统出现,数据管理进入了第三个阶段:数据库管理阶段。

1970年,IBM圣何塞实验室研究员Edgar F. Codd 提出了关系模型。4年后,来自同一实验室的Boyce和Chamberlin提出了专注于关系型数据库的SQL(结构化查询语言)。

SQL可以独立完成数据库生命周期中的全部活动,包括定义关系模式、录入数据、建立数据库、査询、更新、维护、数据库重构、数据库安全性控制等一系列操作。使用SQL进行数据操作,只需提出“做什么”,而不必指明“怎么做”,存取路径的选择以及SQL语句的操作过程由系统自动完成。大大减轻了用户负担,且提高了数据独立性。

从1979年Oracle推出了首个商用SQL;到1985年SQL被国际标准化组织(ISO)采纳成为国际标准语言;再到1990年代,MySQL、PostgreSQL等开源数据库纷纷出现,关系型数据库逐步成为数据管理的“主流抓手”。

大数据时代的到来,陡然暴增的数据量让企业在数据管理上面临了严峻挑战。企业开始寻找数据管理的“新解法”。2006年2月,Hadoop正式的面世,让人们看到大数据时代中数据管理的希望。生态开放的SQL-on-Hadoop数仓在扩展性、在线扩容等方面有明显优势,支持上千节点的扩展规模,在存储处理大量结构化和非结构化数据过程中有着突出能力,让更大规模的数据管理成为可能。

但Hadoop的兼容性和并发支持能力较差,数据管理的效率相对低下。虽然让人们看到了“希望”却不能真正满足企业在大数据时代数据管理的完整需求。

进入21世纪第二个十年后,数据量继续的加速增长,使传统数据库系统在面对数据管理时显得愈发力不从心,云数据库逐渐进入了人们的视野。而近年来,随着越来越多的数据直接产生与云上,云原生等技术的日益成熟和完善,让充分发挥数据库上云优势的云原生数据库,成为更多企业心中进行数据管理活动的“正确答案”。

云原生数据库的种种特点使其天然就能满足企业在大数据时代的数据管理需求。OushuDB等云原生数据库的计算储存分离架构,及其带来的高弹性、强扩展性和强共享性,让企业在实现更大规模数据处理的同时,大大降低了内部数据冗余的不利影响;突出的并行执行能力带来的强复杂查询性能,使数据管理过程更加快捷高效;而高兼容性带来了对更加广泛的数据源的支持,让企业能够通过数据管理在更广的范围内发掘更多的数据所蕴含的价值。

现在,人工智能技术广泛的被应用于数据库系统之中,在整理及存储大量数据;处理、管理和存储非结构化数据;对基本事务进行例行决策;判断数据的价值以及存储数据的最佳位置等场景下起到了重要的作用,成为了企业进行数据管理的重要帮手。

未来,随着技术的进一步发展。数据库系统在AI的加成下,必将爆发无限潜力。让数据管理的过程更加高效精准,让数据的价值得到更加充分的发挥。