百川模型,今日放出

baichuan-inc/baichuan-7B: A large-scale 7B pretraining language model developed by Baichuan (github.com)

baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。

分词

我们参考学术界方案使用 SentencePiece 中的 byte pair encoding (BPE)作为分词算法,并且进行了以下的优化:

  1. 目前大部分开源模型主要基于英文优化,因此对中文语料存在效率较低的问题。我们使用2000万条以中英为主的多语言语料训练分词模型,显著提升对于中文的压缩率。
  2. 对于数学领域,我们参考了 LLaMA 和 Galactica 中的方案,对数字的每一位单独分开,避免出现数字不一致的问题,对于提升数学能力有重要帮助。
  3. 对于罕见字词(如特殊符号等),支持 UTF-8-characters 的 byte 编码,因此做到未知字词的全覆盖。
  4. 我们分析了不同分词器对语料的压缩率,如下表,可见我们的分词器明显优于 LLaMA, Falcon 等开源模型,并且对比其他中文分词器在压缩率相当的情况下,训练和推理效率更高。

已发布

分类

来自

标签:

评论

《“百川模型,今日放出”》 有 1 条评论

  1. song 的头像

    暂时还没看到具体用法,但是可以肯定的是在中文的表现上会好于openai等等;
    另外可以用于推理

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注