3月28日,著名数据和AI平台Databricks在官网正式开源大模型——DBRX。

DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_Apache

根据DBRX在MMLU、HumanEval和GSM8K公布的测试数据显示,不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_自然语言处理_02

在开源基准测试Gauntlet包含30多个不同的最先进(SOTA)基准测试,并且 DBRX的性能优于所有这些模型。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_自然语言处理_03

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_人工智能_04

相关链接

  • 基础模型:https://huggingface.co/databricks/dbrx-base
  • 微调模型:https://huggingface.co/databricks/dbrx-instruct
  • Github:https://github.com/databricks/dbrx
  • 在线demo:https://huggingface.co/spaces/databricks/dbrx-instruct
  • LLM Foundry: https://github.com/mosaicml/llm-foundry
  • 技术博客:https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

团队介绍

Databricks作为数据管理领域的超级独角兽,为了抓住生成式AI的风口,2023年6月26日曾以13亿美元的天价,收购了大模型开源平台MosaicML。

MosaicML曾在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B。(开源地址:https://huggingface.co/mosaicml/mpt-7b)该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。

MPT-7B只进行了大约10天的训练,零人工干预,训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。

Databricks起源于学术界和开源社区,由Apache Spark、Delta Lake和MLflow的原始创建者于2013年创立。Databricks官网介绍,作为世界上第一个也是唯一一个云端Lakehouse平台,Databricks结合了数据仓库和数据湖的最佳特性,提供了一个开放且统一的数据和AI平台。

Databricks创始团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的Spark引擎,为了让更多人能够使用它,他们决定开源Spark,并将Spark商业化。

2013年9月,DataBricks获1400万美元投资,投资方为Andreessen Horowitz(A16Z)。

Ali Ghodsi是Databricks的联合创始人,2016年他成为了公司的CEO。他是开源项目Apache Spark的创造者之一,其学术研究在资源管理、调度和数据缓存方面的思想已经被应用到Apache Mesos和Apache Hadoop中。Ghodsi在2003年从瑞典中部大学获得MBA学位,2006年在瑞典皇家理工学院获得分布式计算领域的博士学位。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_Apache_05

除了Ali Ghodsi,目前Databricks的AI决策层成员还有:Jonathan Frankle、Naveen G. Rao和Hanlin Tang等。这三位之前都来自MosaicML。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_开源_06

从左到右:Jonathan Frankle, Naveen G. Rao, Ali Ghodsi, Hanlin Tang。

Jonathan Frankle 是首席神经网络架构师、DBRX开发团队的负责人。

Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B,评测表现超过Mixtral-8×7B-MoE,免费商用授权!_人工智能_07

一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~