细粒度MoE架构

全球最强开源模型，一夜易主！

刚刚，超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。

它采用了细粒度MoE架构，而且每次输入仅使用360亿参数，实现了更快的每秒token吞吐量。

DBRX大约有1320亿个参数，Llama 2有700亿个参数，Mixtral 有450亿个，Grok有3140亿个。

但是，DBRX处理一个典型查询，平均只需激活约360亿个参数。

这就提高了底层硬件的利用率，将将训练效率提高了30%到50%。不仅响应速度变快，还能减少所需的能源。

而与Mixtral、Grok-1等其他开源MoE模型相比，DBRX使用了更多的小型专家。

具体来说，DBRX有16个不同的专家，在每层为每个token选择4个专家。Mixtral和Grok-1有8个专家，一个路由网络在每层为每个token选择2个专家。

显然，DBRX提供了65倍的专家组合可能性，能够显著提升模型质量。

此外，DBRX还使用了旋转位置编码（RoPE）、门控线性单元（GLU）和分组查询注意力（GQA），并使用tiktoken存储库中提供的GPT-4分词器。

DBRX模型在12万亿Token的文本和代码进行预训练，支持的最大上下文长度为32k。

已发布

2024年3月28日

分类

来自

song

标签：

AI Times –AI 时代，中年人倔强的记录