DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。
DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP)训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。