Skip to content

模型列表

平台将会持续更新添加更多大模型,以及丰富大模型的模型类型。

DBRX

dbrx-instruct 开源申请试用

DBRX 是一个基于 Transformer 架构基础的 decoder-only 的大语言模型(LLM),它使用了一个细粒度的专家混合(MoE)架构,总共有 1320 亿参数,其中 360 亿参数在任何输入上都是活跃的。它在 12 万亿个文本和代码数据标记上进行了预训练。与其他开放的 MoE 模型如 Mixtral-8x7B 和 Grok-1 相比,DBRX 使用了更多的小型专家,提供更多的专家组合可能,并进一步提升模型效果。DBRX 使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)。DBRX 在 12T 的 Databricks 精标数据上进行预训练,并且最大上下文长度为 32K 个 token。

NOTE

DBRX 系列模型需要申请试用。模型使用受 Databricks Open Model License 许可协议的约束。请在下方查看相关的协议内容。

https://www.databricks.com/legal/open-model-license

模型亮点

DBRX Instruct 在 DBRX Base 的基础上,进行了指令遵循的微调,可专门用于少轮次交互。DBRX Instruct在大语言模型的多种权威数据集上都有着不俗的的表现,尤其在数学与代码的能力上,DBRX Instruct 在 HumanEval(代码评估)、GSM8k(数学评测)上的得分都在主流模型中属于顶尖水平。

arc-c

68.9(25-shot)

hellaswag

89.0(10-shot)

piqa

81.2(0-shot)

mmlu

73.5(5-shot)

truthfulqa

66.9(0-shot)

winogrande

81.8(5-shot)

gsm8k

66.9(cot, 5-shot, maj@1)

gauntlet

66.8(v0.3, avg of 30+ diverse tasks)

humaneval

70.1(0-shot, pass@1)


Gemma

gemma-7b 开源申请试用

Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。

NOTE

Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。

https://ai.google.dev/gemma/terms

模型亮点

Gemma-7B 是 70 亿参数规模的基础模型,除了原生支持的文本生成,也包括问答、摘要和推理等能力,可根据需求微调后适用于更多场景

mmlu

64.3(5-shot,top1)

hellaswag

81.2(0-shot)

piqa

81.2(0-shot)

socialiqa

51.8(0-shot)

boolq

83.2(0-shot)

winogrande

72.3(partial score)

commonsenseqa

71.3(7-shot)

openbookqa

52.8

arc-e

81.5

arc-c

53.2

triviaqa

63.4(5-shot)

natualquestions

23(5-shot)

humaneval

32.3(pass@1)

mbpp

44.4(3-shot)

gsm8k

46.4(maj@1)

math

24.3(4-shot)

agieval

41.7

big-bench

55.1

NOTE

官方评测数据: https://huggingface.co/google/gemma-7b


gemma-1.1-7b-it 开源申请试用

Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。

NOTE

Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。

https://ai.google.dev/gemma/terms

模型亮点

Gemma-1.1-7B-It 是 70 亿参数规模的对话模型,是在原始的指令调优 Gemma-7b-It 版本的更新。Gemma-1.1 基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。在伦理和安全层面,Gemma-1.1 较 Gemma 系列有了一系列的提升,根据 Google 的红帽测试(模拟网络攻击),主要在以下几方面的内容得到了提升:


  • 文本到文本内容安全:对涉及安全政策的提示进行人类评估,包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论。
  • 文本到文本表现性伤害:与相关的学术数据集进行基准测试,如 WinoBias 和BBQ 数据集。
  • 记忆能力:对训练数据的记忆能力进行自动化评估,包括个人可识别信息曝光的风险。
  • 大规模伤害:对“危险能力”进行测试,如化学、生物、放射性和核(CBRN)风险。

mmlu

64.3(5-shot,top1)

hellaswag

81.2(0-shot)

piqa

81.2(0-shot)

socialiqa

51.8(0-shot)

boolq

83.2(0-shot)

winogrande

72.3(partial score)

commonsenseqa

71.3(7-shot)

openbookqa

52.8

arc-e

81.5

arc-c

53.2

triviaqa

63.4(5-shot)

natualquestions

23(5-shot)

humaneval

32.3(pass@1)

mbpp

44.4(3-shot)

gsm8k

46.4(maj@1)

math

24.3(4-shot)

agieval

41.7

big-bench

55.1


LLaMA 3

llama-3-70b-instruct 开源申请试用

Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama3/license

模型亮点

Llama3-70b-Instruct 是此系列里 700 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-70b-Instruct 支持模型上下文至 8k tokens,该模型的数据的知识截止日期为 2023 年 12 月。

mmlu

82(5-shot)

gpqa

39.5(0-shot)

humaneval

81.7(0-shot)

gsm8k

93(8-shot,cot)

math

50.4(4-shot,cot)


llama-3-8b-instruct 开源申请试用

Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama3/license

模型亮点

Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 支持模型上下文至8k tokens,该模型的数据的知识截止日期为 2023 年 3 月。

mmlu

68.4(5-shot)

gpqa

34.2(0-shot)

humaneval

62.2(0-shot)

gsm8k

79.6(8-shot,cot)

math

30(4-shot,cot)


llama-3-infini-8b-instruct 闭源申请试用

Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama3/license

模型亮点

为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。Llama3-Infini-8B-Instruct 支持的模型上下文达到 8k tokens。

mmlu

68.4(5-shot)

gpqa

34.2(0-shot)

humaneval

62.2(0-shot)

gsm8k

79.6(8-shot,cot)

math

30(4-shot,cot)


LLaMA 2

llama-2-13b-chat 开源申请试用

Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。

NOTE

此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama2/license

模型亮点

Llama2-13b-chat 是其中 130 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。模型支持 4k tokens 上下文。

code

16.8

commonsense_reasoning

63.9

world_knowledge

48.9

math

14.6

mmlu

45.3

bbh

32.6

agieval

29.3

NOTE

官方评测数据: https://huggingface.co/meta-llama/


llama-2-70b-chat 开源申请试用

Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。

NOTE

此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama2/license

模型亮点

Llama2-70b-chat 是其中 700 亿参数的大模型,适用于 chat 场景,更擅长英文相关的内容,相较该系列里其他规模的的模型,有更强的综合能力。模型支持 4k tokens 上下文。

code

37.5

commonsense_reasoning

71.9

world_knowledge

63.6

math

35.2

mmlu

68.9

bbh

51.2

agieval

54.2

NOTE

官方评测数据: https://huggingface.co/meta-llama/


llama-2-70b 开源申请试用

Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。

NOTE

此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama2/license

模型亮点

Llama2-70b-base 是其中 700 亿参数的基础大模型,适用于通用语言任务场景,更擅长英文相关的内容,相较该系列里其他规模的的模型,有更强的综合能力。模型支持 4k tokens 上下文。

code

37.5

commonsense_reasoning

71.9

world_knowledge

63.6

math

35.2

mmlu

68.9

bbh

51.2

agieval

54.2

NOTE

官方评测数据: https://huggingface.co/meta-llama/


llama-2-7b-chat 开源申请试用

Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。

NOTE

此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama2/license

模型亮点

lama2-7b-chat 是其中 70 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。模型支持 4k tokens 上下文。

code

16.8

commonsense_reasoning

63.9

world_knowledge

48.9

math

14.6

mmlu

45.3

bbh

32.6

agieval

29.3

NOTE

官方评测数据: https://huggingface.co/meta-llama/


零一万物

yi-34b-chat 开源

Yi 系列是由零一万物研发的基于 Transformer 和 Llama 开源社区研发的大语言模型系列。Yi-34B-chat 是其中一个 340 亿参数规模,针对于对话场景进行优化的大语言模型,适合用于多种用途,在 MMLU、CMMLU、BBH、GSM8k 等多个主流的学术数据集上相较已有的开源模型都有不俗的表现,是一个相对推理性价比较高的模型规模。

NOTE

此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。

https://www.lingyiwanwu.com/yi-license

模型亮点

Yi-34B-chat 支持 4k tokens上下文,预训练过程中使用了 3T 的训练数据,该模型的数据的知识截止日期为 2023 年 6 月

mmlu

67.62(0-shot),73.46(5-shot)

cmmlu

79.11(0-shot),81.34(5-shot)

c-eval

77.04(0-shot),78.53(5-shot)

truthfulqa

62.43(0-shot)

bbh

51.41(0-shot),71.74(5-shot)

gsm8k

71.65(0-shot),75.97(5-shot)


百川 2

baichuan2-13b-base 开源

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/baichuan-inc/Baichuan2/tree/main#协议

模型亮点

Baichuan2-13b-base 是 130 亿参数规模的基础模型,适用于通用对话和文本续写,较 chat 模型更适合于复杂场景的微调后使用。该基础模型支持 4k tokens 上下文。

c-eval

58.1

mmlu

59.17

cmmlu

61.97

gaokao

54.33

agieval

48.17

bbh

48.78


baichuan2-13b-chat 开源

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-13b-base`,仅供参考。

https://github.com/baichuan-inc/Baichuan2/tree/main#协议

模型亮点

Baichuan2-13b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。该模型支持 8k tokens 上下文。

c-eval

58.1

mmlu

59.17

cmmlu

61.97

gaokao

54.33

agieval

48.17

bbh

48.78


baichuan2-7b-chat 开源

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-7b-base`,仅供参考。

https://github.com/baichuan-inc/Baichuan2/tree/main#协议

模型亮点

Baichuan2-7b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。该模型支持 4k tokens 上下文。

c-eval

54

mmlu

54.16

cmmlu

57.07

gaokao

47.47

agieval

42.73

bbh

41.56


智谱 2

chatglm2-6b-32k 开源

ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。

模型亮点

相较于 ChatGLM2-6B,ChatGLM2-6b-32k 支持更长的模型上下文至 32k tokens。

mmlu

45.46

c-eval

50.1

gsm8k

28.05

bbh

51.2

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM2-6B


chatglm2-6b 开源

ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,在 MMLU、C-Eval、GSM8K、BBH 等主流学术数据集上,都得到了显著的性能提升,并通过基于 FlashAttention 技术,将对话模型的上下文长度(Context Length)提升至 8k tokens,允许更多轮次的对话。

mmlu

45.46

c-eval

50.1

gsm8k

28.05

bbh

51.2

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM2-6B


智谱 3

chatglm3-6b-32k 开源

ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。相较于 ChatGLM 之前系列的模型,ChatGLM3 采用了更多样的训练数据,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。

模型亮点

ChatGLM3-6b-32k 在 ChatGLM3-6b 基础上进一步强化了对于长文本的理解能力,能够更好的处理最多 32k tokens 长度的上下文。详见官方在 LongBench 评测集的测试结果。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

avarage_longbench

50.2

summary_longbench

26.2

single_doc_qa_longbench

45.8

multi_doc_qa_longbench

46.1

code_longbench

56.2

few_shot_longbench

61.2

synthetic_longbench

65

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


chatglm3-6b-base 开源

ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

模型亮点

基础模型更适合于复杂场景的微调后使用,该模型支持 32k tokens 上下文。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

avarage_longbench

50.2

summary_longbench

26.2

single_doc_qa_longbench

45.8

multi_doc_qa_longbench

46.1

code_longbench

56.2

few_shot_longbench

61.2

synthetic_longbench

65

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


chatglm3-6b 开源

ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。ChatGLM3 采用了全新设计的 Prompt 格式,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。模型支持 8k tokens 上下文。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


chatglm3 闭源

ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,支持 8K 上下文,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。

NOTE

此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


无问天权

mt-infini-3b 闭源

MT-infini-3B 由无问芯穹和摩尔线程联合实训,首次实现了在国产 GPU 千卡智算集群上对国产大语言模型的完整训练。该模型基于Transformer 结构,使用了 1T token 的中英文训练数据集,支持多种语言,上下文长度达到4K,在各评测数据集上均有优秀的表现。

模型亮点

MT-infini-3B 基于摩尔线程夸娥(KUAE)千卡智算集群和和无问芯穹的AI Studio 完成了完整训练,在推理、微调成本方面具有极大优势,并且克服了其他 3B 模型上频现的指令遗忘问题。该模型支持量化,在端侧运行也具有良好性能表现。

c-eval

63

mmlu

55.38

cmmlu

63


infini-megrez-7b 闭源

由无问芯穹公司自主研发的 70 亿参数大语言模型。在逻辑推理、对话能力等方面有优秀的性能表现。配合无问芯穹自研高效推理引擎,同时支持 Nvidia 和 AMD 的 GPU,具备更快的推理速度,在性能表现方面更上一层楼。

模型亮点

  • 逻辑推理:在主流的 MMLU、C-Eval、CMMLU 等数据集上,无问天权模型取得了优秀甚至是时任最佳的精度表现。
  • 对话效果:我们准备了高质量对话数据来对模型进行指令微调,以优化模型的对话效果。对话数据的生产过程非常严格,包括问题收集、主题去重、模型生成草稿、人工改写、人工二次审核等步骤。我们通过启发式规则(例如字数、格式调整)、模型打分、结果对比等多种手法,清洗出内容更扎实,质量更可靠的答案。针对隐私信息及敏感问题,我们也设计了标准话术进行合理规避。目前对话效果在相同尺寸开源模型中取得了接近最优的效果表现。
  • 高效推理:无问芯穹提出了目前市面上最快的大模型推理方案 FlashDecoding++,不仅能带来比之前方法更强的加速能力(可以将 GPU 推理提速 2-4 倍),更重要的是还同时支持 NVIDIA 和 AMD 的 GPU,基于该方案的无问天权模型取得了优秀的推理速度性能。

c-eval

20.5

mmlu

58.3

cmmlu

59.6


通义千问

qwen-14b-chat 开源

通义千问-14B-chat(Qwen-14B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 140 亿参数规模的大语言模型。相较于 Qwen-14B-Base 模型,Qwen-14B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。模型支持 8k tokens 上下文。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT

c-eval

69.8(0-shot), 71.7(5-shot)

humaneval

43.9

mmlu

64.6(0-shot), 66.5(5-shot)

gsm8k

60.1(0-shot), 59.3(8-shot)


qwen-72b-chat 开源

通义千问-72B-chat(Qwen-72B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 720 亿参数规模的大语言模型。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT

模型亮点

相较于 Qwen-72B-Base 模型,Qwen-72B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。模型支持 32k tokens 上下文。

c-eval

80.1(0-shot), 82.9(5-shot)

humaneval

64.6

mmlu

74.3(0-shot), 75(5-shot)

gsm8k

76.4(0-shot), 75.7(8-shot)


qwen-72b 开源

通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的 720 亿参数规模的模型。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT

模型亮点

Qwen-72B 是基于 Transformer 的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。模型支持 32k tokens 上下文。

mmlu

77.4(5-shot)

c-eval

83.3(5-shot)

gsm8k

78.9(8-shot)

math

35.2(4-shot)

humaneval

35.4(0-shot)

mbpp

52.2(3-shot)

bbh

67.7(3-shot)

agieval

62.5(0-shot)

gaokao

87.6(0-shot)

cmmlu

83.6(5-shot)


qwen-7b-chat 开源

通义千问-7B-chat(Qwen-7B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 70 亿参数规模的大语言模型。相较于 Qwen-7B-Base 模型,Qwen-7B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。模型支持 8k tokens 上下文。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT

c-eval

59.7(0-shot), 59.3(5-shot)

humaneval

37.2

mmlu

55.8(0-shot), 57(5-shot)

gsm8k

50.3(0-shot), 54.1(8-shot)


通义千问 1.5

qwen1.5-14b-chat 开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。

模型亮点

Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。

mmlu

67.6

c-eval

78.7

gsm8k

70.1

math

29.2

humaneval

37.8

mbpp

44

bbh

53.7

cmmlu

77.6


qwen1.5-32b-chat 开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。

模型亮点

Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。

mmlu

73.4

c-eval

83.5

gsm8k

77.4

math

36.1

humaneval

73.2

mbpp

49.4

bbh

66.8

cmmlu

82.3


qwen1.5-72b-chat 开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。

模型亮点

Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。

mmlu

77.5

c-eval

84.1

gsm8k

79.5

math

34.1

humaneval

41.5

mbpp

53.4

bbh

65.5

cmmlu

83.5


qwen1.5-72b 开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。

模型亮点

Qwen1.5-72b-base 是其中的 720 亿参数的基础大模型,适合多种场景的使用。

mmlu

77.5

c-eval

84.1

gsm8k

79.5

math

34.1

humaneval

41.5

mbpp

53.4

bbh

65.5

cmmlu

83.5


qwen1.5-7b-chat 开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升,并且支持 32k tokens 上下文。

模型亮点

Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。

mmlu

61

c-eval

74.1

gsm8k

62.5

math

20.3

humaneval

36

mbpp

37.4

bbh

40.2

cmmlu

73.1


模型总表

model-id模型类型上线日期
dbrx-instruct大语言模型2024-05-20
gemma-1.1-7b-it大语言模型2024-05-20
gemma-7b大语言模型2024-05-20
qwen1.5-32b-chat大语言模型2024-05-20
yi-34b-chat大语言模型2024-05-20
llama-3-infini-8b-instruct大语言模型2024-04-23
llama-3-70b-instruct大语言模型2024-04-19
llama-3-8b-instruct大语言模型2024-04-19
chatglm3大语言模型2024-03-25
chatglm2-6b大语言模型2024-03-25
chatglm2-6b-32k大语言模型2024-03-25
infini-megrez-7b大语言模型2024-02-20
llama-2-7b-chat大语言模型2024-02-20
llama-2-13b-chat大语言模型2024-02-20
llama-2-70b-chat大语言模型2024-02-20
llama-2-70b大语言模型2024-02-20
baichuan2-7b-chat大语言模型2024-02-20
baichuan2-13b-chat大语言模型2024-02-20
baichuan2-13b-base大语言模型2024-02-20
chatglm3-6b大语言模型2024-02-20
chatglm3-6b-32k大语言模型2024-02-20
chatglm3-6b-base大语言模型2024-02-20
qwen-7b-chat大语言模型2024-02-20
qwen-14b-chat大语言模型2024-02-20
qwen-72b-chat大语言模型2024-02-20
qwen-72b大语言模型2024-02-20
qwen1.5-7b-chat大语言模型2024-02-20
qwen1.5-14b-chat大语言模型2024-02-20
qwen1.5-72b-chat大语言模型2024-02-20
qwen1.5-72b大语言模型2024-02-20