无问芯穹文档

模型介绍

DeepSeek-V3-0324 是一个强大的专家混合（MoE）语言模型，总参数量约为 660B（Huggingface 上为 685 B），每个 Token 激活 37B 参数。该模型采用多头潜在注意力（MLA）和 DeepSeekMoE 架构，实现了高效推理和经济训练，并在前代 DeepSeek-V3 的基础上显著提升了性能。

模型亮点

DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失（auxiliary-loss-free）的负载均衡策略，并实现了多 Token 预测（Multi-Token Prediction, MTP）训练目标。预训练基于 14.8 万亿个多样化 Token，使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。

> **注意**：此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。

评测数据

详见 [官方数据](https://huggingface.co/deepseek-ai/DeepSeek-V3-0324)

许可协议

https://choosealicense.com/licenses/mit/

免责声明

由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。