模型介绍

DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。

模型亮点

DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP)训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。

> **注意**: 此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。
评测数据
详见 [官方数据](https://huggingface.co/deepseek-ai/DeepSeek-V3-0324)
许可协议
https://choosealicense.com/licenses/mit/
免责声明
由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。