DBRX 是一个基于 Transformer 架构基础的 decoder-only 的大语言模型(LLM),它使用了一个细粒度的专家混合(MoE)架构,总共有 1320 亿参数,其中 360 亿参数在任何输入上都是活跃的。它在 12 万亿个文本和代码数据标记上进行了预训练。与其他开放的 MoE 模型如 Mixtral-8x7B 和 Grok-1 相比,DBRX 使用了更多的小型专家,提供更多的专家组合可能,并进一步提升模型效果。DBRX 使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)。DBRX 在 12T 的 Databricks 精标数据上进行预训练。
DBRX Instruct 在 DBRX Base 的基础上,进行了指令遵循的微调,可专门用于少轮次交互。DBRX Instruct在大语言模型的多种权威数据集上都有着不俗的表现,尤其在数学与代码的能力上,DBRX Instruct 在 HumanEval(代码评估)、GSM8k(数学评测)上的得分都在主流模型中属于顶尖水平。
注意
DBRX 系列模型需要申请试用。模型使用受 Databricks Open Model License 许可协议的约束。请在下方查看相关的协议内容。
详见 官方数据
https://www.databricks.com/legal/open-model-license
限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。