细粒度MoE架构

文章引用来自 https://mp.weixin.qq.com/s/88zvF3vwtTJcGl__HR6hBg

新智元导读】就在刚刚,全球最强开源大模型王座易主,创业公司Databricks发布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!这个过程只用了2个月,1000万美元,和3100块H100。

全球最强开源模型,一夜易主!

刚刚,超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。

它采用了细粒度MoE架构,而且每次输入仅使用360亿参数,实现了更快的每秒token吞吐量。

DBRX大约有1320亿个参数,Llama 2有700亿个参数,Mixtral 有450亿个,Grok有3140亿个。

但是,DBRX处理一个典型查询,平均只需激活约360亿个参数。

这就提高了底层硬件的利用率,将将训练效率提高了30%到50%。不仅响应速度变快,还能减少所需的能源。

而与Mixtral、Grok-1等其他开源MoE模型相比,DBRX使用了更多的小型专家

具体来说,DBRX有16个不同的专家,在每层为每个token选择4个专家。Mixtral和Grok-1有8个专家,一个路由网络在每层为每个token选择2个专家

显然,DBRX提供了65倍的专家组合可能性,能够显著提升模型质量。

此外,DBRX还使用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器。

DBRX模型在12万亿Token的文本和代码进行预训练,支持的最大上下文长度为32k。


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注