文章引用来自 https://mp.weixin.qq.com/s/88zvF3vwtTJcGl__HR6hBg
新智元导读】就在刚刚,全球最强开源大模型王座易主,创业公司Databricks发布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!这个过程只用了2个月,1000万美元,和3100块H100。
全球最强开源模型,一夜易主!
刚刚,超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。
它采用了细粒度MoE架构,而且每次输入仅使用360亿参数,实现了更快的每秒token吞吐量。
DBRX大约有1320亿个参数,Llama 2有700亿个参数,Mixtral 有450亿个,Grok有3140亿个。
但是,DBRX处理一个典型查询,平均只需激活约360亿个参数。
这就提高了底层硬件的利用率,将将训练效率提高了30%到50%。不仅响应速度变快,还能减少所需的能源。
而与Mixtral、Grok-1等其他开源MoE模型相比,DBRX使用了更多的小型专家。
具体来说,DBRX有16个不同的专家,在每层为每个token选择4个专家。Mixtral和Grok-1有8个专家,一个路由网络在每层为每个token选择2个专家。
显然,DBRX提供了65倍的专家组合可能性,能够显著提升模型质量。
此外,DBRX还使用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器。
DBRX模型在12万亿Token的文本和代码进行预训练,支持的最大上下文长度为32k。
发表回复