模型介绍

DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。

模型亮点
DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。

NOTE

此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。

评测数据
当前模型
deepseek-v3
bbh
87.5
mmlu
87.1
mmlu-redux
86.2
mmlu-pro
81.2
drop
89.0
arc-easy
98.9
arc-challenge
95.3
hellaswag
88.9
piqa
84.7
winogrande
84.9
race-middle
67.1
race-high
51.3
triviaqa
82.9
naturalquestions
40.0
agieval
79.6
humaneval
65.2
mbpp
75.4
livecodebench-base
49.2
cruxeval-i
67.3
cruxeval-o
69.8
gsm8k
89.3
math
61.6
mgsm
79.8
cmath
90.7
cluewsc
82.7
c-eval
90.1
cmmlu
88.8
cmrc
76.3
c3
78.6
ccpm
92.0
mmmlu-non-english
79.4
gpqa
68.4
aime
59.4
同系列模型
pro-deepseek-v3
bbh
87.5
mmlu
87.1
mmlu-redux
86.2
mmlu-pro
81.2
drop
89.0
arc-easy
98.9
arc-challenge
95.3
hellaswag
88.9
piqa
84.7
winogrande
84.9
race-middle
67.1
race-high
51.3
triviaqa
82.9
naturalquestions
40.0
agieval
79.6
humaneval
65.2
mbpp
75.4
livecodebench-base
49.2
cruxeval-i
67.3
cruxeval-o
69.8
gsm8k
89.3
math
61.6
mgsm
79.8
cmath
90.7
cluewsc
82.7
c-eval
90.1
cmmlu
88.8
cmrc
76.3
c3
78.6
ccpm
92.0
mmmlu-non-english
79.4
gpqa
68.4
aime
59.4

NOTE

详见 官方数据

许可协议

https://choosealicense.com/licenses/mit/

免责声明

由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。