模型列表
平台将会持续更新添加更多大模型,以及丰富大模型的模型类型。
大语言模型
DBRX
dbrx-instruct
开源申请试用
DBRX 是一个基于 Transformer 架构基础的 decoder-only 的大语言模型(LLM),它使用了一个细粒度的专家混合(MoE)架构,总共有 1320 亿参数,其中 360 亿参数在任何输入上都是活跃的。它在 12 万亿个文本和代码数据标记上进行了预训练。与其他开放的 MoE 模型如 Mixtral-8x7B 和 Grok-1 相比,DBRX 使用了更多的小型专家,提供更多的专家组合可能,并进一步提升模型效果。DBRX 使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)。DBRX 在 12T 的 Databricks 精标数据上进行预训练,并且最大上下文长度为 32K 个 token。
NOTE
DBRX 系列模型需要申请试用。模型使用受 Databricks Open Model License 许可协议的约束。请在下方查看相关的协议内容。
模型亮点
DBRX Instruct 在 DBRX Base 的基础上,进行了指令遵循的微调,可专门用于少轮次交互。DBRX Instruct在大语言模型的多种权威数据集上都有着不俗的的表现,尤其在数学与代码的能力上,DBRX Instruct 在 HumanEval(代码评估)、GSM8k(数学评测)上的得分都在主流模型中属于顶尖水平。
arc-c
68.9(25-shot)
hellaswag
89.0(10-shot)
piqa
81.2(0-shot)
mmlu
73.5(5-shot)
truthfulqa
66.9(0-shot)
winogrande
81.8(5-shot)
gsm8k
66.9(cot, 5-shot, maj@1)
gauntlet
66.8(v0.3, avg of 30+ diverse tasks)
humaneval
70.1(0-shot, pass@1)
Gemma 2
gemma-2-27b-it
开源申请试用
Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。
模型亮点
gemma-2-27b-it 是 270 亿参数规模的对话模型,基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。其上下文长度为 8K Tokens
mmlu
75.2 (5-shot, top-1)
hellaswag
86.4 (10-shot)
piqa
83.2 (0-shot)
socialiqa
53.7 (0-shot)
boolq
84.8 (0-shot)
winogrande
83.7 (partial score)
arc-e
88.6 (0-shot)
arc-c
71.4 (25-shot)
triviaqa
83.7 (5-shot)
natural questions
34.5 (5-shot)
humaneval
51.8 (pass@1)
mbpp
62.6 (3-shot)
gsm8k
74.0 (5-shot, maj@1)
math
42.3 (4-shot)
agieval
55.1 (3-5-shot)
big-bench
74.9 (3-shot, CoT)
NOTE
LLaMA 3.1
llama-3.1-8b-instruct
开源申请试用
Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,上下文长度为 128 K,知识更新截止于 2023 年 12 月。GenStudio 暂仅支持 32K 上下文,如有需要,请联系无问芯穹。
NOTE
LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/blob/main/LICENSE
模型亮点
LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。
MMLU
69.4
MMLU (CoT)
73.0
MMLU-Pro (CoT)
48.3
IFEval
80.4
ARC-C
83.4
GPQA
30.4
HumanEval
72.6
MBPP ++ base version
72.8
Multipl-E HumanEval
50.8
Multipl-E MBPP
52.4
GSM-8K (CoT)
84.5
MATH (CoT)
51.9
API-Bank
82.6
BFCL
76.1
Gorilla Benchmark API Bench
8.2
Nexus (0-shot)
38.5
Multilingual MGSM (CoT)
68.9
llama-3.1-70b-instruct
开源申请试用
Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,上下文长度为 128 K,知识更新截止于 2023 年 12 月。GenStudio 暂仅支持 32K 上下文,如有需要,请联系无问芯穹。
NOTE
LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE
模型亮点
LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。
MMLU
83.6
MMLU (CoT)
86.0
MMLU-Pro (CoT)
66.4
IFEval
87.5
ARC-C
94.8
GPQA
41.7
HumanEval
80.5
MBPP ++ base version
86.0
Multipl-E HumanEval
65.5
Multipl-E MBPP
62.0
GSM-8K (CoT)
95.1
MATH (CoT)
68.0
API-Bank
90.0
BFCL
84.8
Gorilla Benchmark API Bench
29.7
Nexus (0-shot)
56.7
Multilingual MGSM (CoT)
86.9
LLaMA 3
llama-3-8b-instruct
开源申请试用
Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。
模型亮点
Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 支持模型上下文至8k tokens,该模型的数据的知识截止日期为 2023 年 3 月。
mmlu
68.4(5-shot)
gpqa
34.2(0-shot)
humaneval
62.2(0-shot)
gsm8k
79.6(8-shot,cot)
math
30(4-shot,cot)
llama-3-infini-8b-instruct
闭源申请试用
Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。
模型亮点
为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。Llama3-Infini-8B-Instruct 支持的模型上下文达到 8k tokens。
mmlu
68.4(5-shot)
gpqa
34.2(0-shot)
humaneval
62.2(0-shot)
gsm8k
79.6(8-shot,cot)
math
30(4-shot,cot)
llama-3-70b-instruct
开源申请试用
Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。
模型亮点
Llama3-70b-Instruct 是此系列里 700 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-70b-Instruct 支持模型上下文至 8k tokens,该模型的数据的知识截止日期为 2023 年 12 月。
mmlu
82(5-shot)
gpqa
39.5(0-shot)
humaneval
81.7(0-shot)
gsm8k
93(8-shot,cot)
math
50.4(4-shot,cot)
LLaMA 2
llama-2-7b-chat
开源申请试用可以微调
Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。
模型亮点
lama2-7b-chat 是其中 70 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。模型支持 4k tokens 上下文。
code
16.8
commonsense_reasoning
63.9
world_knowledge
48.9
math
14.6
mmlu
45.3
bbh
32.6
agieval
29.3
NOTE
llama-2-13b-chat
开源申请试用
Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。
模型亮点
Llama2-13b-chat 是其中 130 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。模型支持 4k tokens 上下文。
code
16.8
commonsense_reasoning
63.9
world_knowledge
48.9
math
14.6
mmlu
45.3
bbh
32.6
agieval
29.3
NOTE
llama-2-70b-chat
开源申请试用
Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。
模型亮点
Llama2-70b-chat 是其中 700 亿参数的大模型,适用于 chat 场景,更擅长英文相关的内容,相较该系列里其他规模的的模型,有更强的综合能力。模型支持 4k tokens 上下文。
code
37.5
commonsense_reasoning
71.9
world_knowledge
63.6
math
35.2
mmlu
68.9
bbh
51.2
agieval
54.2
NOTE
llama-2-70b
开源申请试用
Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。
模型亮点
Llama2-70b-base 是其中 700 亿参数的基础大模型,适用于通用语言任务场景,更擅长英文相关的内容,相较该系列里其他规模的的模型,有更强的综合能力。模型支持 4k tokens 上下文。
code
37.5
commonsense_reasoning
71.9
world_knowledge
63.6
math
35.2
mmlu
68.9
bbh
51.2
agieval
54.2
NOTE
Yi 1.5
yi-1.5-34b-chat
开源
Yi-1.5 是 Yi 的升级版本。 它使用 500B Tokens 的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调,支持 4K 的上下文长度。
模型亮点
与 Yi 相比,Yi-1.5 在编程、数学、推理和指令执行能力方面表现更为出色,同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。
mmlu
76.8
gsm8k
90.2
math
50.1
humaneval
75.2
mbpp
74.6
mt-bench
8.5
alignbench
7.2
arenahard
42.6
alpacaeval2.0
36.6
Baichuan 2
baichuan2-7b-chat
开源
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-7b-base`,仅供参考。
模型亮点
Baichuan2-7b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。该模型支持 4k tokens 上下文。
c-eval
54
mmlu
54.16
cmmlu
57.07
gaokao
47.47
agieval
42.73
bbh
41.56
baichuan2-13b-base
开源
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。
模型亮点
Baichuan2-13b-base 是 130 亿参数规模的基础模型,适用于通用对话和文本续写,较 chat 模型更适合于复杂场景的微调后使用。该基础模型支持 4k tokens 上下文。
c-eval
58.1
mmlu
59.17
cmmlu
61.97
gaokao
54.33
agieval
48.17
bbh
48.78
baichuan2-13b-chat
开源
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-13b-base`,仅供参考。
模型亮点
Baichuan2-13b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。该模型支持 8k tokens 上下文。
c-eval
58.1
mmlu
59.17
cmmlu
61.97
gaokao
54.33
agieval
48.17
bbh
48.78
GLM 4
glm-4-9b-chat
开源
GLM-4-9B-Chat 是智谱 AI 推出的最新一代预训练模型 GLM-4-9B 的人类偏好对齐版本。
NOTE
此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0
模型亮点
在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。
alignbench
7.01
mt-bench
8.35
ifeval
69.0
mmlu
72.4
c-eval
75.6
gsm8k
79.6
math
50.6
humaneval
71.8
natualcodebench
32.2
ChatGLM 3
chatglm3-6b-32k
开源
ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。相较于 ChatGLM 之前系列的模型,ChatGLM3 采用了更多样的训练数据,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
模型亮点
ChatGLM3-6b-32k 在 ChatGLM3-6b 基础上进一步强化了对于长文本的理解能力,能够更好的处理最多 32k tokens 长度的上下文。详见官方在 LongBench 评测集的测试结果。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
avarage_longbench
50.2
summary_longbench
26.2
single_doc_qa_longbench
45.8
multi_doc_qa_longbench
46.1
code_longbench
56.2
few_shot_longbench
61.2
synthetic_longbench
65
NOTE
chatglm3-6b-base
开源可以微调
ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。
NOTE
模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
模型亮点
基础模型更适合于复杂场景的微调后使用,该模型支持 32k tokens 上下文。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
avarage_longbench
50.2
summary_longbench
26.2
single_doc_qa_longbench
45.8
multi_doc_qa_longbench
46.1
code_longbench
56.2
few_shot_longbench
61.2
synthetic_longbench
65
NOTE
chatglm3-6b
开源
ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。ChatGLM3 采用了全新设计的 Prompt 格式,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。模型支持 8k tokens 上下文。
NOTE
模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
NOTE
chatglm3
闭源
ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,支持 8K 上下文,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。
NOTE
此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
NOTE
ChatGLM 2
chatglm2-6b-32k
开源
ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。
模型亮点
相较于 ChatGLM2-6B,ChatGLM2-6b-32k 支持更长的模型上下文至 32k tokens。
mmlu
45.46
c-eval
50.1
gsm8k
28.05
bbh
51.2
NOTE
chatglm2-6b
开源
ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,在 MMLU、C-Eval、GSM8K、BBH 等主流学术数据集上,都得到了显著的性能提升,并通过基于 FlashAttention 技术,将对话模型的上下文长度(Context Length)提升至 8k tokens,允许更多轮次的对话。
mmlu
45.46
c-eval
50.1
gsm8k
28.05
bbh
51.2
NOTE
Megrez
mt-infini-3b
闭源
mt-infini-3b 由无问芯穹和摩尔线程联合实训,首次实现了在国产 GPU 千卡智算集群上对国产大语言模型的完整训练。该模型基于 Transformer 结构,使用了 1T token 的中英文训练数据集,支持多种语言,上下文长度达到 4K,在各评测数据集上均有优秀的表现。
模型亮点
mt-infini-3b 基于摩尔线程夸娥(KUAE)千卡智算集群和和无问芯穹的 AIStudio 完成了完整训练,在推理、微调成本方面具有极大优势,并且克服了其他 3B 模型上频现的指令遗忘问题。该模型支持量化,在端侧运行也具有良好性能表现。
c-eval
63
mmlu
55.38
cmmlu
63
infini-megrez-7b
闭源
由无问芯穹公司自主研发的 70 亿参数大语言模型。在逻辑推理、对话能力等方面有优秀的性能表现。配合无问芯穹自研高效推理引擎,同时支持 Nvidia 和 AMD 的 GPU,具备更快的推理速度,在性能表现方面更上一层楼。
模型亮点
- 逻辑推理:在主流的 MMLU、C-Eval、CMMLU 等数据集上,无问天权模型取得了优秀甚至是时任最佳的精度表现。
- 对话效果:我们准备了高质量对话数据来对模型进行指令微调,以优化模型的对话效果。对话数据的生产过程非常严格,包括问题收集、主题去重、模型生成草稿、人工改写、人工二次审核等步骤。我们通过启发式规则(例如字数、格式调整)、模型打分、结果对比等多种手法,清洗出内容更扎实,质量更可靠的答案。针对隐私信息及敏感问题,我们也设计了标准话术进行合理规避。目前对话效果在相同尺寸开源模型中取得了接近最优的效果表现。
- 高效推理:无问芯穹提出了目前市面上最快的大模型推理方案 FlashDecoding++,不仅能带来比之前方法更强的加速能力(可以将 GPU 推理提速 2-4 倍),更重要的是还同时支持 NVIDIA 和 AMD 的 GPU,基于该方案的无问天权模型取得了优秀的推理速度性能。
c-eval
20.5
mmlu
58.3
cmmlu
59.6
Qwen 2.5
qwen2.5-7b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本 (超过 8K 个 token)、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理,上限为 128K 个 token,并能生成最多 8K 个 token。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement
模型亮点
指令调优的 7B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers
- 参数数量:76.1 亿
- 非嵌入参数数量:65.3 亿
- 层数:28
- 注意力头数 (GQA):查询为 28,键值为 4
- 上下文长度:全 131,072 个 token,生成最多 8192 个 token
mmlu-pro
56.3
mmlu-redux
75.4
gpqa
36.4
math
75.5
gsm8k
91.6
humaneval
84.8
mbpp
79.2
multipl-e
70.4
livecodebench-2305-2409
28.7
livebench-0831
35.9
ifeval-strict-prompt
71.2
arena-hard
52.0
alignbench-v1.1
7.33
mtbench
8.75
NOTE
qwen2.5-14b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本 (超过 8K 个 token)、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理,上限为 128K 个 token,并能生成最多 8K 个 token。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement
模型亮点
指令调优的 14B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:带有 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:147 亿
- 非嵌入参数数量:131 亿
- 层数:48 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
- 上下文长度:完整 131,072 个令牌,生成 8192 个令牌
mmlu-pro
63.7
mmlu-redux
80.0
gpqa
45.5
math
80.0
gsm8k
94.8
humaneval
83.5
mbpp
82.0
multipl-e
72.8
livecodebench-2305-2409
42.6
livebench-0831
44.4
ifeval-strict-prompt
81.0
arena-hard
68.3
alignbench-v1.1
7.94
mtbench
8.88
NOTE
qwen2.5-32b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本 (超过 8K 个 token)、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理,上限为 128K 个 token,并能生成最多 8K 个 token。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
模型亮点
指令调优的 32B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:325 亿
- 非嵌入参数数量:310 亿
- 层数:64 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
- 上下文长度:完整 131,072 个令牌,生成最多 8192 个令牌
mmlu-pro
69.0
mmlu-redux
83.9
gpqa
49.5
math
83.1
gsm8k
95.9
humaneval
88.4
mbpp
84.0
multipl-e
75.4
livecodebench-2305-2409
51.2
livebench-0831
50.7
ifeval-strict-prompt
79.5
arena-hard
74.5
alignbench-v1.1
7.93
mtbench
9.20
NOTE
qwen2.5-72b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本 (超过 8K 个 token)、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理,上限为 128K 个 token,并能生成最多 8K 个 token。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
模型亮点
指令调优的 720 亿参数 Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:727 亿
- 非嵌入参数数量:700 亿
- 层数:80 层
- 注意力头数 (GQA):查询 (Q) 为 64,键值 (KV) 为 8
- 上下文长度:完整 131,072 个令牌,生成最多 8192 个令牌
mmlu-pro
71.1
mmlu-redux
86.8
gpqa
49.0
math
83.1
gsm8k
95.8
humaneval
86.6
mbpp
88.2
multipl-e
75.1
livecodebench-2305-2409
55.5
livebench-0831
52.3
ifeval-strict-prompt
84.1
arena-hard
81.2
alignbench-v1.1
8.16
mtbench
9.35
NOTE
Qwen 2
qwen2-7b-instruct
开源
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/file/view/master?fileName=LICENSE&status=0
模型亮点
Qwen2 增⼤了上下⽂⻓度⽀持,Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 达到 128K,Qwen2-57B-A14B-Instruct 为 64K,Qwen2-7B 为 32K。GenStudio 暂仅支持 32K 上下文,如有需要,请联系无问芯穹。
mmlu
70.5
gpqa
25.3
humaneval
79.9
mbpp
67.2
gsm8k
82.3
math
49.6
c-eval
77.2
qwen2-7b
开源可以微调
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-7B/file/view/master?fileName=LICENSE&status=0
模型亮点
Qwen2 增⼤了上下⽂⻓度⽀持,Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 达到 128K,Qwen2-57B-A14B-Instruct 为 64K,Qwen2-7B 为 32K。GenStudio 暂仅支持 32K 上下文,如有需要,请联系无问芯穹。
mmlu
70.3
gpqa
31.8
humaneval
51.2
mbpp
65.9
gsm8k
79.9
math
44.2
c-eval
83.2
cmmlu
83.9
qwen2-72b-instruct
开源
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/file/view/master?fileName=LICENSE&status=0
模型亮点
Qwen2 增⼤了上下⽂⻓度⽀持,Qwen2-72B-Instruct 和 Qwen2-7B-Instruct 达到 128K,Qwen2-57B-A14B-Instruct 为 64K,Qwen2-7B 为 32K。GenStudio 暂仅支持 32K 上下文,如有需要,请联系无问芯穹。
mmlu
82.3
gpqa
42.4
humaneval
86.0
mbpp
52.2
gsm8k
91.1
math
59.7
c-eval
83.8
Qwen 1.5
qwen1.5-4b-chat
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。
mmlu
56.1
c-eval
67.6
gsm8k
57.0
math
10.0
humaneval
25.6
mbpp
29.2
bbh
32.5
cmmlu
66.7
qwen1.5-7b-chat
开源可以微调
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。
mmlu
61
c-eval
74.1
gsm8k
62.5
math
20.3
humaneval
36
mbpp
37.4
bbh
40.2
cmmlu
73.1
qwen1.5-14b-chat
开源可以微调
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。
mmlu
67.6
c-eval
78.7
gsm8k
70.1
math
29.2
humaneval
37.8
mbpp
44
bbh
53.7
cmmlu
77.6
qwen1.5-32b-chat
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。
mmlu
73.4
c-eval
83.5
gsm8k
77.4
math
36.1
humaneval
73.2
mbpp
49.4
bbh
66.8
cmmlu
82.3
qwen1.5-72b-chat
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。
mmlu
77.5
c-eval
84.1
gsm8k
79.5
math
34.1
humaneval
41.5
mbpp
53.4
bbh
65.5
cmmlu
83.5
qwen1.5-72b
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。
模型亮点
Qwen1.5-72b-base 是其中的 720 亿参数的基础大模型,适合多种场景的使用。
mmlu
77.5
c-eval
84.1
gsm8k
79.5
math
34.1
humaneval
41.5
mbpp
53.4
bbh
65.5
cmmlu
83.5
生图模型
Stable Diffusion XL
stable-diffusion-xl
开源申请试用
Stable Diffusion XL 是由 Stability AI 研发并开源的文生图大模型,创意图像生成能力行业领先。指令理解能力强,支持反向 Prompt 定义不希望生成的内容。SDXL 相比于v1.5 做了重大的改进,并且与当前为开源的文生图 SOTA 模型(midjorney)效果相当,具体改进之处包括: 更大的 unet backbone(是之前的3倍); 增加了 refinement 模块用于改善生成图片的质量;更高效的训练技巧等。
NOTE
SD 系列模型需要申请试用。模型使用受 Stability AI 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/LICENSE.md
模型亮点
- 更快的生成速度:SDXL 通过优化算法和模型结构,显著提高了图像生成的速度。相较于原版 Stable Diffusion,SDXL 能够在更短的时间内生成高质量的图像,大大提高了工作效率。
- 更高的图像质量:SDXL 采用了更大规模的训练数据和更先进的模型结构,使得生成的图像更加真实、细腻。同时,SDXL 还引入了多种新技术,如对抗性训练、感知损失函数等,进一步提升了图像质量。
- 更强的可扩展性:SDXL 的设计使得其具有良好的可扩展性,可以方便地与其他模型和技术进行集成,从而满足更多复杂的应用需求。
视频生成模型
CogVideoX
cogvideox-2b
开源申请试用
CogVideoX 是由智谱开发并开源的最新的视频生成模型系列,与智谱清影为同源模型。该模型暂时仅支持输入英文提示词,可生成 720 * 480 的 6 秒视频,在人物高清特写,电影镜头等场景上都有不俗的表现。
NOTE
模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
https://www.modelscope.cn/models/ZhipuAI/CogVideoX-2b/file/view/master?fileName=LICENSE&status=1
模型亮点
- 与“清影”同源:CogVideoX-2b 与智谱 AI 之前推出的 AI 视频生成功能「清影」技术同源,继承了「清影」的高效指令遵循能力和内容连贯性 。
- 视频生成:提示词上限为 226 个 token,可通过控制镜头语言、景别角度、光影效果、主体、场景等因素,生成多样化的视频内容。
- 技术创新:自研高效的 3D VAE,配合3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。
模型总表
Model ID | 模型厂商 | 模型类型 |
---|---|---|
baichuan2-7b-chat | 百川智能 | 大语言模型 |
baichuan2-13b-base | 百川智能 | 大语言模型 |
baichuan2-13b-chat | 百川智能 | 大语言模型 |
chatglm2-6b-32k | 智谱 AI | 大语言模型 |
chatglm2-6b | 智谱 AI | 大语言模型 |
chatglm3-6b-32k | 智谱 AI | 大语言模型 |
chatglm3-6b-base | 智谱 AI | 大语言模型 |
chatglm3-6b | 智谱 AI | 大语言模型 |
chatglm3 | 智谱 AI | 大语言模型 |
cogvideox-2b | 智谱 AI | 视频模型 |
dbrx-instruct | Databricks | 大语言模型 |
gemma-2-27b-it | 大语言模型 | |
glm-4-9b-chat | 智谱 AI | 大语言模型 |
mt-infini-3b | 无问芯穹 | 大语言模型 |
infini-megrez-7b | 无问芯穹 | 大语言模型 |
llama-2-7b-chat | Meta | 大语言模型 |
llama-2-13b-chat | Meta | 大语言模型 |
llama-2-70b-chat | Meta | 大语言模型 |
llama-2-70b | Meta | 大语言模型 |
llama-3-8b-instruct | Meta | 大语言模型 |
llama-3-infini-8b-instruct | Meta | 大语言模型 |
llama-3-70b-instruct | Meta | 大语言模型 |
llama-3.1-8b-instruct | Meta | 大语言模型 |
llama-3.1-70b-instruct | Meta | 大语言模型 |
qwen1.5-4b-chat | 阿里云 | 大语言模型 |
qwen1.5-7b-chat | 阿里云 | 大语言模型 |
qwen1.5-14b-chat | 阿里云 | 大语言模型 |
qwen1.5-32b-chat | 阿里云 | 大语言模型 |
qwen1.5-72b-chat | 阿里云 | 大语言模型 |
qwen1.5-72b | 阿里云 | 大语言模型 |
qwen2-7b-instruct | 阿里云 | 大语言模型 |
qwen2-7b | 阿里云 | 大语言模型 |
qwen2-72b-instruct | 阿里云 | 大语言模型 |
qwen2.5-7b-instruct | 阿里云 | 大语言模型 |
qwen2.5-14b-instruct | 阿里云 | 大语言模型 |
qwen2.5-32b-instruct | 阿里云 | 大语言模型 |
qwen2.5-72b-instruct | 阿里云 | 大语言模型 |
stable-diffusion-xl | Stability AI | 图像模型 |
yi-1.5-34b-chat | 零一万物 | 大语言模型 |