AIStudio SSH 公钥管理,一处配置,处处可用AIStudio SSH 公钥管理,一处配置,处处可用 ,只为更佳开发体验如何配置
Skip to content

预置模型列表

大模型服务平台(GenStudio)预置了来源于诸多厂商的主流系列模型。

访问模型广场

模型广场页面集中展示大模型服务平台(GenStudio)预置的模型。您可以通过模型广场顶部与左侧的标签筛选模型。每个预置大模型均以卡片的形式呈现。

模型名称一般与模型厂商命名保持一致。您可以从模型卡片标签中直接查看模型所属厂商、支持的芯片、适用场景、上下文长度等信息。

模型卡片左下角可能带有以下便捷入口:

  • 可体验:可直接进入体验中心,开启互动体验,例如对话、生成图像、生成视频等。大语言模型支持配置 System Prompt 和其他参数。图像和视频模型暂仅支持随机预置提示词,可修改基本参数。
  • 可微调:支持 GenStudio 快捷微调服务。

点击模型卡片进入详情页,可查看模型介绍、上下文长度、评测数据等(评测数据来自于模型发布方)。如果该预置模型提供 API 服务,将提供调用说明、调用示例等。

大语言模型

DeepSeek

deepseek-r1-distill-qwen-32b开源

DeepSeek-R1-Distill-Qwen-32B 是基于 DeepSeek-R1 蒸馏而来的模型,在 Qwen2.5-32B 的基础上使用 DeepSeek-R1 生成的样本进行微调。该模型在各种基准测试中表现出色,保持了强大的推理能力。

NOTE

此模型的使用受许可协议约束,请查看以下许可部分。

https://huggingface.co/Qwen/Qwen2.5-32B/blob/main/LICENSE

模型亮点

DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,在密集模型领域实现了新的最先进结果。
  • 类型:蒸馏语言模型
  • 基础模型:Qwen2.5-32B
  • 参数规模:328亿
  • 张量类型:BF16
  • 推荐温度参数:0.5-0.7

aime_2024_pass@1

72.6

aime_2024_cons@64

83.3

math500_pass@1

94.3

gpqa_diamond_pass@1

62.1

livecodebench_pass@1

57.2

codeforces_rating

1691


deepseek-r1开源

DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。

NOTE

使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE

模型亮点

DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。

mmlu

90.8

mmlu-redux

92.9

mmlu-pro

84.0

drop

92.2

if-eval

83.3

gpqa-diamond

71.5

simpleqa

30.1

frames

82.5

alpacaeval2.0

87.6

arenahard

92.3

livecodebench

65.9

codeforces_percentile

96.3

codeforces_rating

2029

swe_verified

49.2

aider-polyglot

53.3

aime_2024

79.8

math-500

97.3

cnmo_2024

78.8

cluewsc

92.8

c-eval

91.8

c-simpleqa

63.7


deepseek-v3开源

DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。

NOTE

此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。

https://choosealicense.com/licenses/mit/

模型亮点

DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。

bbh

87.5

mmlu

87.1

mmlu-redux

86.2

mmlu-pro

81.2

drop

89.0

arc-easy

98.9

arc-challenge

95.3

hellaswag

88.9

piqa

84.7

winogrande

84.9

race-middle

67.1

race-high

51.3

triviaqa

82.9

naturalquestions

40.0

agieval

79.6

humaneval

65.2

mbpp

75.4

livecodebench-base

49.2

cruxeval-i

67.3

cruxeval-o

69.8

gsm8k

89.3

math

61.6

mgsm

79.8

cmath

90.7

cluewsc

82.7

c-eval

90.1

cmmlu

88.8

cmrc

76.3

c3

78.6

ccpm

92.0

mmmlu-non-english

79.4

gpqa

68.4

aime

59.4


pro-deepseek-v3开源

企业专属服务专用模型: pro-deepSeek-v3DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。

NOTE

此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。

https://choosealicense.com/licenses/mit/

模型亮点

DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。

bbh

87.5

mmlu

87.1

mmlu-redux

86.2

mmlu-pro

81.2

drop

89.0

arc-easy

98.9

arc-challenge

95.3

hellaswag

88.9

piqa

84.7

winogrande

84.9

race-middle

67.1

race-high

51.3

triviaqa

82.9

naturalquestions

40.0

agieval

79.6

humaneval

65.2

mbpp

75.4

livecodebench-base

49.2

cruxeval-i

67.3

cruxeval-o

69.8

gsm8k

89.3

math

61.6

mgsm

79.8

cmath

90.7

cluewsc

82.7

c-eval

90.1

cmmlu

88.8

cmrc

76.3

c3

78.6

ccpm

92.0

mmmlu-non-english

79.4

gpqa

68.4

aime

59.4


Gemma 2

gemma-2-27b-it开源申请试用

Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。

NOTE

Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。

https://ai.google.dev/gemma/terms

模型亮点

gemma-2-27b-it 是 270 亿参数规模的对话模型,基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。

mmlu

75.2 (5-shot, top-1)

hellaswag

86.4 (10-shot)

piqa

83.2 (0-shot)

socialiqa

53.7 (0-shot)

boolq

84.8 (0-shot)

winogrande

83.7 (partial score)

arc-e

88.6 (0-shot)

arc-c

71.4 (25-shot)

triviaqa

83.7 (5-shot)

natural questions

34.5 (5-shot)

humaneval

51.8 (pass@1)

mbpp

62.6 (3-shot)

gsm8k

74.0 (5-shot, maj@1)

math

42.3 (4-shot)

agieval

55.1 (3-5-shot)

big-bench

74.9 (3-shot, CoT)


LLaMA 3.3

llama-3.3-70b-instruct开源申请试用

Meta 发布的 LLaMA 3.3 多语言大规模语言模型(LLMs)是一个经过预训练和指令微调的生成模型,提供 70B 规模(文本输入/文本输出)。该模型使用超过 15T 的数据进行训练,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,知识更新截止于 2023 年 12 月。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE

模型亮点

LLaMA 3.3 的指令微调文本模型(70B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。

MMLU

83.6

MMLU (CoT)

86.0

MMLU-Pro (CoT)

68.9

IFEval

92.1

ARC-C

94.8

GPQA

50.5

HumanEval

88.4

MBPP ++ base version

87.6

Multipl-E HumanEval

65.5

Multipl-E MBPP

62.0

GSM-8K (CoT)

95.1

MATH (CoT)

77.0

API-Bank

90.0

BFCL

77.3

Gorilla Benchmark API Bench

29.7

Nexus (0-shot)

56.7

Multilingual MGSM (CoT)

91.1


LLaMA 3.1

llama-3.1-70b-instruct开源申请试用

Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE

模型亮点

LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。

MMLU

83.6

MMLU (CoT)

86.0

MMLU-Pro (CoT)

66.4

IFEval

87.5

ARC-C

94.8

GPQA

41.7

HumanEval

80.5

MBPP ++ base version

86.0

Multipl-E HumanEval

65.5

Multipl-E MBPP

62.0

GSM-8K (CoT)

95.1

MATH (CoT)

68.0

API-Bank

90.0

BFCL

84.8

Gorilla Benchmark API Bench

29.7

Nexus (0-shot)

56.7

Multilingual MGSM (CoT)

86.9


LLaMA 3

llama-3-8b-instruct开源申请试用

Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama3/license

模型亮点

Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 模型的数据的知识截止日期为 2023 年 3 月。

mmlu

68.4(5-shot)

gpqa

34.2(0-shot)

humaneval

62.2(0-shot)

gsm8k

79.6(8-shot,cot)

math

30(4-shot,cot)


llama-3-infini-8b-instruct闭源申请试用

Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。

NOTE

LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。

https://llama.meta.com/llama3/license

模型亮点

为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。

mmlu

68.4(5-shot)

gpqa

34.2(0-shot)

humaneval

62.2(0-shot)

gsm8k

79.6(8-shot,cot)

math

30(4-shot,cot)


Yi 1.5

yi-1.5-34b-chat开源

Yi-1.5 是 Yi 的升级版本。 它使用 500B Tokens 的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。

NOTE

此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。

https://github.com/01-ai/Yi/blob/main/LICENSE

模型亮点

与 Yi 相比,Yi-1.5 在编程、数学、推理和指令执行能力方面表现更为出色,同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。

mmlu

76.8

gsm8k

90.2

math

50.1

humaneval

75.2

mbpp

74.6

mt-bench

8.5

alignbench

7.2

arenahard

42.6

alpacaeval2.0

36.6


GLM 4

glm-4-9b-chat开源

GLM-4-9B-Chat 是智谱 AI 推出的最新一代预训练模型 GLM-4-9B 的人类偏好对齐版本。

NOTE

此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。

https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0

模型亮点

在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。

alignbench

7.01

mt-bench

8.35

ifeval

69.0

mmlu

72.4

c-eval

75.6

gsm8k

79.6

math

50.6

humaneval

71.8

natualcodebench

32.2


ChatGLM 3

chatglm3-6b-base开源可以微调

ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。

NOTE

模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b-base/file/view/master?fileName=MODEL_LICENSE&status=1

模型亮点

ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,更适合于复杂场景的微调后使用。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

avarage_longbench

50.2

summary_longbench

26.2

single_doc_qa_longbench

45.8

multi_doc_qa_longbench

46.1

code_longbench

56.2

few_shot_longbench

61.2

synthetic_longbench

65

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


chatglm3闭源

ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。

NOTE

此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。

gsm8k

72.3

math

25.7

bbh

66.1

mmlu

61.4

c-eval

69

cmmlu

67.5

mbpp

52.4

agieval

53.7

NOTE

官方评测数据: https://github.com/THUDM/ChatGLM3


Megrez

megrez-3b-instruct开源

Megrez-3B-Instruct 是由无问芯穹完全自主训练的大语言模型。Megrez-3B-Instruct 旨在通过软硬协同理念,打造一款极速推理、小巧精悍、极易上手的端侧智能解决方案。

模型亮点

  1. 高精度:Megrez-3B-Instruct 虽然参数规模只有 3B,但通过数据质量的本质提升,成功弥合了模型性能代差,将上一代 14B 模型的能力高度压缩至 3B 大小,在主流榜单上取得了优秀的性能表现。
  2. 高速度:模型小≠速度快。Megrez-3B-Instruct 通过软硬协同优化,确保了各结构参数与主流硬件高度适配,最大推理速度领先同精度模型 300%。
  3. 简单易用:模型设计之初我们进行了激烈的讨论:应该在结构设计上留出更多软硬协同的空间(如 ReLU、稀疏化、更精简的结构等),还是使用经典结构便于直接用起来?我们选择了后者,即采用最原始的 LLaMA2 结构,开发者无需任何修改便可将模型部署于各种平台,最小化二次开发复杂度。
  4. 丰富应用:我们提供了完整的 WebSearch 方案,相比 search_with_lepton,我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,并提供更好的总结效果。用户可以基于该功能构建属于自己的 Kimi 或 Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。

c-eval

81.4

cmmlu

74.5

mmlu

70.6

mmlu-pro

48.2

human-eval

62.2

mbpp

77.4

gsm8k

64.8

math

26.5

mt-bench

8.76

align-bench

6.91


Qwen 2.5

qwen2.5-7b-instruct开源

Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:

  • 显著增加知识量,在编程与数学领域的能力得到极大提升。
  • 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
  • 支持长上下文处理。
  • 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement

模型亮点

指令调优的 7B Qwen2.5 模型特点如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers
  • 参数数量:76.1 亿
  • 非嵌入参数数量:65.3 亿
  • 层数:28
  • 注意力头数 (GQA):查询为 28,键值为 4

mmlu-pro

56.3

mmlu-redux

75.4

gpqa

36.4

math

75.5

gsm8k

91.6

humaneval

84.8

mbpp

79.2

multipl-e

70.4

livecodebench

28.7

livebench-0831

35.9

ifeval-strict-prompt

71.2

arena-hard

52.0

alignbench-v1.1

7.33

mtbench

8.75


qwen2.5-14b-instruct开源

Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:

  • 显著增加知识量,在编程与数学领域的能力得到极大提升。
  • 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
  • 支持长上下文处理。
  • 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement

模型亮点

指令调优的 14B Qwen2.5 模型特点如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:带有 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
  • 参数数量:147 亿
  • 非嵌入参数数量:131 亿
  • 层数:48 层
  • 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8

mmlu-pro

63.7

mmlu-redux

80.0

gpqa

45.5

math

80.0

gsm8k

94.8

humaneval

83.5

mbpp

82.0

multipl-e

72.8

livecodebench

42.6

livebench-0831

44.4

ifeval-strict-prompt

81.0

arena-hard

68.3

alignbench-v1.1

7.94

mtbench

8.88


qwen2.5-32b-instruct开源

Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:

  • 显著增加知识量,在编程与数学领域的能力得到极大提升。
  • 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
  • 支持长上下文处理。
  • 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE

模型亮点

指令调优的 32B Qwen2.5 模型特点如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
  • 参数数量:325 亿
  • 非嵌入参数数量:310 亿
  • 层数:64 层
  • 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8

mmlu-pro

69.0

mmlu-redux

83.9

gpqa

49.5

math

83.1

gsm8k

95.9

humaneval

88.4

mbpp

84.0

multipl-e

75.4

livecodebench

51.2

livebench-0831

50.7

ifeval-strict-prompt

79.5

arena-hard

74.5

alignbench-v1.1

7.93

mtbench

9.20


qwen2.5-coder-32b-instruct开源

Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:

  • 显著提升代码生成、代码推理和代码修复能力。
  • 支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。
  • 支持长上下文处理。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement

模型亮点

Qwen2.5-Coder-Instruct 模型特点如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers
  • 参数数量:325 亿
  • 非嵌入参数数量:310 亿
  • 层数:64
  • 注意力头数 (GQA):Q 28,KV 为 4

humaneval

92.7

mbpp

90.2

evalplus

86.3

multipl-e

79.4

mceval

65.9

livecodebench

31.4

cruxeval

83.4

bigcodebench

38.3

aider

73.7

spider

85.1

bird-sql

58.4

codearena

68.9


qwen2.5-vl-32b-instruct开源

Qwen2.5-VL-32B-Instruct 是 Qwen 家族中的一款强大的视觉-语言模型,专为自然对话、内容创作和多模态任务设计。通过大规模训练数据和强化学习的优化,它在数学、逻辑推理、文档理解、视频理解和视觉代理任务中表现出色,在多个基准测试中展现了强大的竞争力。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://choosealicense.com/licenses/apache-2.0/

模型亮点

Qwen2.5-VL-32B-Instruct 在视觉-语言能力上实现了显著提升,无需特定任务微调即可作为多功能视觉代理。
  • 视觉理解:擅长分析图像中的文本、图表、图标和布局,同时能识别常见物体。
  • 视觉代理能力:可作为计算机和手机使用的代理,具备动态推理和工具指挥能力。
  • 长视频理解:能够理解超过1小时的视频,并精确定位相关事件片段。
  • 视觉定位:通过生成边界框或点精确定位图像中的物体,并提供稳定的 JSON 输出。
  • 结构化输出:支持从发票、表单和表格中生成结构化数据,适用于金融和商业场景。
  • 数学与推理提升:通过强化学习增强了问题解决能力,提供更详细、清晰的回答。


qwq-32b-preview开源

QwQ-32B-Preview 是由 Qwen 团队开发的一款实验性研究模型,专注于提升 AI 的推理能力。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://choosealicense.com/licenses/apache-2.0/

模型亮点

32.5B 因果语言模型的规格如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
  • 参数数量:325 亿
  • 非嵌入参数数量:310 亿
  • 层数:64 层
  • 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
该模型为预览版本,虽然已经展现了相当有潜力的分析功能,但仍存在若干限制


qwq-32b开源

QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,QwQ 具备思考和推理能力,在下游任务尤其是难题上能取得显著性能提升。QwQ-32B 是一款中等规模的推理模型,其性能可与最先进的推理模型相媲美,例如 DeepSeek-R1 和 o1-mini。

NOTE

使用建议:1. 使用 Temperature=0.6 和 TopP=0.95,而不是贪婪解码(Greedy decoding),以避免无限重复。2. 使用 TopK 值在 20 到 40 之间,以过滤掉稀有 token 的出现,同时保持生成输出的多样性。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\boxed{}中。' 4. 对于多选题,建议在提示词中加入以下 JSON 结构以标准化响应:'请在答案字段中仅显示选项字母,例如 "answer": "C"'。

https://choosealicense.com/licenses/apache-2.0/

模型亮点

32.5B 因果语言模型的规格如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练(预训练 & 后训练(监督微调和强化学习))
  • 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
  • 参数数量:325 亿
  • 非嵌入参数数量:310 亿
  • 层数:64 层
  • 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8


qwen2.5-72b-instruct开源

Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:

  • 显著增加知识量,在编程与数学领域的能力得到极大提升。
  • 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
  • 支持长上下文处理。
  • 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE

模型亮点

指令调优的 720 亿参数 Qwen2.5 模型特点如下:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
  • 参数数量:727 亿
  • 非嵌入参数数量:700 亿
  • 层数:80 层
  • 注意力头数 (GQA):查询 (Q) 为 64,键值 (KV) 为 8

mmlu-pro

71.1

mmlu-redux

86.8

gpqa

49.0

math

83.1

gsm8k

95.8

humaneval

86.6

mbpp

88.2

multipl-e

75.1

livecodebench

55.5

livebench-0831

52.3

ifeval-strict-prompt

84.1

arena-hard

81.2

alignbench-v1.1

8.16

mtbench

9.35


Qwen 2

qwen2-7b-instruct开源

Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/file/view/master?fileName=LICENSE&status=0

mmlu

70.5

gpqa

25.3

humaneval

79.9

mbpp

67.2

gsm8k

82.3

math

49.6

c-eval

77.2


qwen2-7b开源仅微调可以微调

Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://modelscope.cn/models/qwen/Qwen2-7B/file/view/master?fileName=LICENSE&status=0

mmlu

70.3

gpqa

31.8

humaneval

51.2

mbpp

65.9

gsm8k

79.9

math

44.2

c-eval

83.2

cmmlu

83.9


qwen2-72b-instruct开源

Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。

NOTE

此模型的使用受许可协议的约束。请在下方查看相关的协议内容。

https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/file/view/master?fileName=LICENSE&status=0

mmlu

82.3

gpqa

42.4

humaneval

86.0

mbpp

52.2

gsm8k

91.1

math

59.7

c-eval

83.8


Qwen 1.5

qwen1.5-7b-chat开源仅微调可以微调

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。

模型亮点

Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。

mmlu

61

c-eval

74.1

gsm8k

62.5

math

20.3

humaneval

36

mbpp

37.4

bbh

40.2

cmmlu

73.1


qwen1.5-14b-chat开源可以微调

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升

模型亮点

Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。

mmlu

67.6

c-eval

78.7

gsm8k

70.1

math

29.2

humaneval

37.8

mbpp

44

bbh

53.7

cmmlu

77.6


qwen1.5-32b-chat开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升

模型亮点

Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。

mmlu

73.4

c-eval

83.5

gsm8k

77.4

math

36.1

humaneval

73.2

mbpp

49.4

bbh

66.8

cmmlu

82.3


qwen1.5-72b-chat开源

Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升

模型亮点

Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。

mmlu

77.5

c-eval

84.1

gsm8k

79.5

math

34.1

humaneval

41.5

mbpp

53.4

bbh

65.5

cmmlu

83.5


其他模型

JINA Embeddings

jina-embeddings-v2-base-code开源

jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。

NOTE

此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

模型亮点

jina-embeddings-v2-base-code 是一个多语言嵌入模型,支持英语和 30 种常用编程语言,支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域,并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练,但借助 ALiBi 能力,可以扩展至 8000(甚至更长)的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用,尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数,在实现快速且内存高效的推理的同时,依然具有出色的性能。


jina-embeddings-v2-base-zh开源

jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。

NOTE

此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

模型亮点

jina-embeddings-v2-base-zh 是支持中英双语的文本向量模型,支持长达 8192 字符的文本编码。该模型的研发基于 BERT 架构(JinaBERT),JinaBERT 是在 BERT 架构基础上的改进,首次将 ALiBi 应用到编码器架构中以支持更长的序列。 不同于以往的单语言/多语言向量模型,该模型设计双语模型来更好的支持单语言(中搜中)以及跨语言(中搜英)文档检索。


BGE Embeddings / Rerank

bge-m3开源

BGE-M3 来自 BAAI 和中国科学技术大学,是 BAAI 开源的模型。

NOTE

此模型的使用受 MIT 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md

模型亮点

BGE-M3 在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding 支持超过 100 种工作语言,支持 8192 长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。


bge-reranker-v2-m3开源

bge-reranker-v2-m3 是由智源推出的一个轻量级的交叉编码器模型。

NOTE

此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

模型亮点

bge-reranker-v2-m3 是以 bge-m3 为基础的开发的,参数量为 568M,具有强大的多语言能力,易于部署,具有快速的推理能力,特别适用于多语言重排序场景。


模型总表

GenStudio 模型总表
Model ID模型厂商模型类型
bge-m3BAAI嵌入模型
bge-reranker-v2-m3BAAI重排序模型
chatglm3-6b-base智谱 AI大语言模型
chatglm3智谱 AI大语言模型
deepseek-r1-distill-qwen-32b深度求索大语言模型
deepseek-r1深度求索大语言模型
deepseek-v3深度求索大语言模型
pro-deepseek-v3深度求索大语言模型
gemma-2-27b-itGoogle大语言模型
glm-4-9b-chat智谱 AI大语言模型
megrez-3b-instruct无问芯穹大语言模型
jina-embeddings-v2-base-codeJina AI嵌入模型
jina-embeddings-v2-base-zhJina AI嵌入模型
llama-3-8b-instructMeta大语言模型
llama-3-infini-8b-instructMeta大语言模型
llama-3.1-70b-instructMeta大语言模型
llama-3.3-70b-instructMeta大语言模型
qwen2.5-7b-instruct阿里云大语言模型
qwen2.5-14b-instruct阿里云大语言模型
qwen2.5-32b-instruct阿里云大语言模型
qwen2.5-coder-32b-instruct阿里云大语言模型
qwen2.5-vl-32b-instruct阿里云大语言模型
qwq-32b-preview阿里云大语言模型
qwq-32b阿里云大语言模型
qwen2.5-72b-instruct阿里云大语言模型
qwen1.5-14b-chat阿里云大语言模型
qwen1.5-32b-chat阿里云大语言模型
qwen1.5-72b-chat阿里云大语言模型
qwen2-7b-instruct阿里云大语言模型
qwen2-72b-instruct阿里云大语言模型
yi-1.5-34b-chat零一万物大语言模型
{
  "baichuan 2": [
    {
      "name": "baichuan2-7b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "百川智能",
      "brand": "baichuan",
      "generation": "2",
      "finetunable": false,
      "id": "mo-6e8b708312125268",
      "devid": "mo-c62sgpdydzalxzm5",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Baichuan2-7b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-7b-base`,仅供参考。",
      "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "54",
        "mmlu": "54.16",
        "cmmlu": "57.07",
        "gaokao": "47.47",
        "agieval": "42.73",
        "bbh": "41.56"
      },
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "baichuan2-13b-base",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "m",
      "by": "百川智能",
      "brand": "baichuan",
      "generation": "2",
      "finetunable": false,
      "id": "mo-a2c3888312125271",
      "devid": "mo-c62sgqb2hhaaikd5",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Baichuan2-13b-base 是 130 亿参数规模的基础模型,适用于通用对话和文本续写,较 chat 模型更适合于复杂场景的微调后使用。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "58.1",
        "mmlu": "59.17",
        "cmmlu": "61.97",
        "gaokao": "54.33",
        "agieval": "48.17",
        "bbh": "48.78"
      },
      "benchmark_source": "https://github.com/baichuan-inc/Baichuan2/tree/main",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "baichuan2-13b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "m",
      "by": "百川智能",
      "brand": "baichuan",
      "generation": "2",
      "finetunable": false,
      "id": "mo-11c3d58312125270",
      "devid": "mo-c62sgprozgcehzsv",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Baichuan2-13b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-13b-base`,仅供参考。",
      "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "58.1",
        "mmlu": "59.17",
        "cmmlu": "61.97",
        "gaokao": "54.33",
        "agieval": "48.17",
        "bbh": "48.78"
      },
      "benchmark_source": "https://github.com/baichuan-inc/Baichuan2/tree/main",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "bge 1": [
    {
      "name": "bge-m3",
      "arch": [
        "bert"
      ],
      "type": "embedding",
      "size": "s",
      "by": "BAAI",
      "brand": "bge",
      "generation": "1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": " BGE-M3 来自 BAAI 和中国科学技术大学,是 BAAI 开源的模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "BGE-M3 在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding 支持超过 100 种工作语言,支持 8192 长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。"
      },
      "note": "此模型的使用受 MIT 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用独占实例部署大模型 API 服务",
            "rate": 0.1,
            "rate_output": 0.1,
            "unit": "分钟",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "bge-reranker-v2-m3",
      "arch": [
        "bert"
      ],
      "type": "rerank",
      "size": "s",
      "by": "BAAI",
      "brand": "bge",
      "generation": "1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": " bge-reranker-v2-m3 是由智源推出的一个轻量级的交叉编码器模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "bge-reranker-v2-m3 是以 bge-m3 为基础的开发的,参数量为 568M,具有强大的多语言能力,易于部署,具有快速的推理能力,特别适用于多语言重排序场景。"
      },
      "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.1,
            "rate_output": 0.1,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "glm 2": [
    {
      "name": "chatglm2-6b-32k",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "2",
      "finetunable": false,
      "id": "mo-c7ajkzldycfxqv2p",
      "devid": "mo-c7ajkzldycfxqv2p",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "相较于 ChatGLM2-6B,ChatGLM2-6b-32k 支持更长的模型上下文。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "45.46",
        "c-eval": "50.1",
        "gsm8k": "28.05",
        "bbh": "51.2"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM2-6B",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "chatglm2-6b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "2",
      "finetunable": false,
      "id": "mo-c7ai6fqzpapcqzxb",
      "devid": "mo-c7ai6fqzpapcqzxb",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,在 MMLU、C-Eval、GSM8K、BBH 等主流学术数据集上,都得到了显著的性能提升,并通过基于 FlashAttention 技术,提升了对话模型的上下文长度(Context Length),允许更多轮次的对话。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": ""
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "45.46",
        "c-eval": "50.1",
        "gsm8k": "28.05",
        "bbh": "51.2"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM2-6B",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "glm 3": [
    {
      "name": "chatglm3-6b-32k",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "3",
      "finetunable": false,
      "id": "mo-7a83098312125265",
      "devid": "mo-c62sgogds3xbodq3",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。相较于 ChatGLM 之前系列的模型,ChatGLM3 采用了更多样的训练数据,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "ChatGLM3-6b-32k 在 ChatGLM3-6b 基础上进一步强化了对于长文本的理解能力。详见官方在 LongBench 评测集的测试结果。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "gsm8k": "72.3",
        "math": "25.7",
        "bbh": "66.1",
        "mmlu": "61.4",
        "c-eval": "69",
        "cmmlu": "67.5",
        "mbpp": "52.4",
        "agieval": "53.7",
        "avarage_longbench": "50.2",
        "summary_longbench": "26.2",
        "single_doc_qa_longbench": "45.8",
        "multi_doc_qa_longbench": "46.1",
        "code_longbench": "56.2",
        "few_shot_longbench": "61.2",
        "synthetic_longbench": "65"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM3",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "chatglm3-6b-base",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "3",
      "finetunable": true,
      "id": "mo-ebdebb8312125267",
      "devid": "mo-c62sgowixmndfvv4",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,更适合于复杂场景的微调后使用。"
      },
      "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b-base/file/view/master?fileName=MODEL_LICENSE&status=1",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "gsm8k": "72.3",
        "math": "25.7",
        "bbh": "66.1",
        "mmlu": "61.4",
        "c-eval": "69",
        "cmmlu": "67.5",
        "mbpp": "52.4",
        "agieval": "53.7",
        "avarage_longbench": "50.2",
        "summary_longbench": "26.2",
        "single_doc_qa_longbench": "45.8",
        "multi_doc_qa_longbench": "46.1",
        "code_longbench": "56.2",
        "few_shot_longbench": "61.2",
        "synthetic_longbench": "65"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM3",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.1,
            "rate_output": 0.1,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "chatglm3-6b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "3",
      "finetunable": false,
      "id": "mo-5ec6868312125264",
      "devid": "mo-c62sgnybqvmq5h2w",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。ChatGLM3 采用了全新设计的 Prompt 格式,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": ""
      },
      "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/file/view/master?fileName=MODEL_LICENSE&status=1",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "gsm8k": "72.3",
        "math": "25.7",
        "bbh": "66.1",
        "mmlu": "61.4",
        "c-eval": "69",
        "cmmlu": "67.5",
        "mbpp": "52.4",
        "agieval": "53.7"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM3",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "chatglm3",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "l",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "3",
      "finetunable": false,
      "id": "mo-c7ajmmoymzewjqu4",
      "devid": "mo-c7ajmmoymzewjqu4",
      "opensource": false,
      "shortdesc": {
        "title": "模型介绍",
        "content": "ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": ""
      },
      "note": "此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "gsm8k": "72.3",
        "math": "25.7",
        "bbh": "66.1",
        "mmlu": "61.4",
        "c-eval": "69",
        "cmmlu": "67.5",
        "mbpp": "52.4",
        "agieval": "53.7"
      },
      "benchmark_source": "https://github.com/THUDM/ChatGLM3",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "cogvideox": [
    {
      "name": "cogvideox-2b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "video",
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "cogvideox",
      "finetunable": false,
      "id": "mo-c7uwkqqyucmjiqft",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "CogVideoX 是由智谱开发并开源的最新的视频生成模型系列,与智谱清影为同源模型。该模型暂时仅支持输入英文提示词,可生成 720 * 480 的 6 秒视频,在人物高清特写,电影镜头等场景上都有不俗的表现。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<ul><li><strong>与“清影”同源</strong>:CogVideoX-2b 与智谱 AI 之前推出的 AI 视频生成功能「清影」技术同源,继承了「清影」的高效指令遵循能力和内容连贯性 。</li><li><strong>视频生成</strong>:提示词上限为 226 个 token,可通过控制镜头语言、景别角度、光影效果、主体、场景等因素,生成多样化的视频内容。</li><li><strong>技术创新</strong>:自研高效的 3D VAE,配合3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。</li></ul>"
      },
      "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://www.modelscope.cn/models/ZhipuAI/CogVideoX-2b/file/view/master?fileName=LICENSE&status=1",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "dbrx": [
    {
      "name": "dbrx-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xxl",
      "by": "Databricks",
      "brand": "dbrx",
      "finetunable": false,
      "hosted_api": false,
      "id": "",
      "devid": "mo-c7erqymylmbqj6pn",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DBRX 是一个基于 Transformer 架构基础的 decoder-only 的大语言模型(LLM),它使用了一个细粒度的专家混合(MoE)架构,总共有 1320 亿参数,其中 360 亿参数在任何输入上都是活跃的。它在 12 万亿个文本和代码数据标记上进行了预训练。与其他开放的 MoE 模型如 Mixtral-8x7B 和 Grok-1 相比,DBRX 使用了更多的小型专家,提供更多的专家组合可能,并进一步提升模型效果。DBRX 使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)。DBRX 在 12T 的 Databricks 精标数据上进行预训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "DBRX Instruct 在 DBRX Base 的基础上,进行了指令遵循的微调,可专门用于少轮次交互。DBRX Instruct在大语言模型的多种权威数据集上都有着不俗的表现,尤其在数学与代码的能力上,DBRX Instruct 在 HumanEval(代码评估)、GSM8k(数学评测)上的得分都在主流模型中属于顶尖水平。"
      },
      "note": "DBRX 系列模型需要申请试用。模型使用受 Databricks Open Model License 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://www.databricks.com/legal/open-model-license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "arc-c": "68.9(25-shot)",
        "hellaswag": "89.0(10-shot)",
        "piqa": "81.2(0-shot)",
        "mmlu": "73.5(5-shot)",
        "truthfulqa": "66.9(0-shot)",
        "winogrande": "81.8(5-shot)",
        "gsm8k": "66.9(cot, 5-shot, maj@1)",
        "gauntlet": "66.8(v0.3, avg of 30+ diverse tasks)",
        "humaneval": "70.1(0-shot, pass@1)"
      },
      "benchmark_source": "https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "deepseek 2": [
    {
      "name": "deepseek-coder-v2-lite-base-awq",
      "type": "text",
      "tags": [
        "text-generation",
        "code-completion"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "2",
      "finetunable": false,
      "id": "mo-c77r6xfkxs2yofnk",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-Coder-V2-Lite-Base-AWQ 是 DeepSeek-Coder-V2-Lite-Base 的 AWQ 量化版本。模型具有 2.6B 参数,使用 I32 和 FP16 张量类型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>作为量化模型,DeepSeek-Coder-V2-Lite-Base-AWQ 提供更经济的计算和存储效率。有关模型详细信息,请访问 <a href='https://huggingface.co/TechxGenus/DeepSeek-Coder-V2-Lite-Base-AWQ' target='_blank'>DeepSeek-Coder-V2-Lite-Base-AWQ 页面</a>。</div>"
      },
      "note": "此模型源自 DeepSeek-Coder-V2,它在代码智能任务中表现出色,支持 338 种编程语言,并在编码和数学推理方面显著提升。",
      "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL",
      "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "deepseek-coder-v2-lite-instruct-awq",
      "type": "text",
      "tags": [
        "text-generation",
        "code-completion"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "2",
      "finetunable": false,
      "id": "mo-c77r6fraoffmk2xf",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-Coder-V2-Lite-Instruct-AWQ 是 DeepSeek-Coder-V2-Lite-Instruct 的 AWQ 量化版本。模型具有 2.6B 参数,使用 I32 和 FP16 张量类型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>作为量化模型,DeepSeek-Coder-V2-Lite-Instruct-AWQ 提供更经济的计算和存储效率。有关模型详细信息,请访问 <a href='https://huggingface.co/TechxGenus/DeepSeek-Coder-V2-Lite-Instruct-AWQ' target='_blank'>DeepSeek-Coder-V2-Lite-Instruct-AWQ 页面</a>。</div>"
      },
      "note": "此模型源自 DeepSeek-Coder-V2,它在代码智能任务中表现出色,支持 338 种编程语言,并在编码和数学推理方面显著提升。",
      "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL",
      "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    }
  ],
  "deepseek r1": [
    {
      "name": "deepseek-r1-distill-qwen-32b",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational",
        "reasoning"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "r1",
      "finetunable": false,
      "opensource": true,
      "id": "mo-daokgxphuinwvst2",
      "devid": "",
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>DeepSeek-R1-Distill-Qwen-32B 是基于 DeepSeek-R1 蒸馏而来的模型,在 Qwen2.5-32B 的基础上使用 DeepSeek-R1 生成的样本进行微调。该模型在各种基准测试中表现出色,保持了强大的推理能力。</p></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,在密集模型领域实现了新的最先进结果。<ul><li><strong>类型</strong>:蒸馏语言模型</li><li><strong>基础模型</strong>:Qwen2.5-32B</li><li><strong>参数规模</strong>:328亿</li><li><strong>张量类型</strong>:BF16</li><li><strong>推荐温度参数</strong>:0.5-0.7</li></ul></div>"
      },
      "note": "此模型的使用受许可协议约束,请查看以下许可部分。",
      "license": "https://huggingface.co/Qwen/Qwen2.5-32B/blob/main/LICENSE",
      "disclaimer": "如果未使用适当的温度设置,模型可能会出现无限重复或输出不连贯的问题。使用者需自行承担使用风险。",
      "benchmark": {
        "aime_2024_pass@1": "72.6",
        "aime_2024_cons@64": "83.3",
        "math500_pass@1": "94.3",
        "gpqa_diamond_pass@1": "62.1",
        "livecodebench_pass@1": "57.2",
        "codeforces_rating": "1691"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "详细的API文档请访问 DeepSeek 官方平台:platform.deepseek.com"
    },
    {
      "name": "deepseek-r1-yn-ascend",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational",
        "reasoning"
      ],
      "hosted_api": false,
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "r1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>"
      },
      "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。",
      "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE",
      "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.004,
            "rate_output": 0.004,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "deepseek-r1",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "hosted_api": true,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational",
        "reasoning"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "r1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>"
      },
      "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。",
      "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE",
      "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {
        "mmlu": "90.8",
        "mmlu-redux": "92.9",
        "mmlu-pro": "84.0",
        "drop": "92.2",
        "if-eval": "83.3",
        "gpqa-diamond": "71.5",
        "simpleqa": "30.1",
        "frames": "82.5",
        "alpacaeval2.0": "87.6",
        "arenahard": "92.3",
        "livecodebench": "65.9",
        "codeforces_percentile": "96.3",
        "codeforces_rating": "2029",
        "swe_verified": "49.2",
        "aider-polyglot": "53.3",
        "aime_2024": "79.8",
        "math-500": "97.3",
        "cnmo_2024": "78.8",
        "cluewsc": "92.8",
        "c-eval": "91.8",
        "c-simpleqa": "63.7"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.004,
            "rate_output": 0.016,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "pro-deepseek-r1",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "hosted_api": false,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational",
        "reasoning"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "r1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><strong>企业专属服务专用模型: <code>pro-deepSeek-r1</code>。</strong>DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。</div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>"
      },
      "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。",
      "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE",
      "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {
        "mmlu": "90.8",
        "mmlu-redux": "92.9",
        "mmlu-pro": "84.0",
        "drop": "92.2",
        "if-eval": "83.3",
        "gpqa-diamond": "71.5",
        "simpleqa": "30.1",
        "frames": "82.5",
        "alpacaeval2.0": "87.6",
        "arenahard": "92.3",
        "livecodebench": "65.9",
        "codeforces_percentile": "96.3",
        "codeforces_rating": "2029",
        "swe_verified": "49.2",
        "aider-polyglot": "53.3",
        "aime_2024": "79.8",
        "math-500": "97.3",
        "cnmo_2024": "78.8",
        "cluewsc": "92.8",
        "c-eval": "91.8",
        "c-simpleqa": "63.7"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.004,
            "rate_output": 0.004,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    }
  ],
  "deepseek 2.5": [
    {
      "name": "deepseek-v2.5-awq",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "hosted_api": false,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-V2.5-AWQ 是 DeepSeek-V2.5 的 AWQ 量化版本。DeepSeek-V2.5 是强大的专家混合(MoE)语言模型,以经济的训练和高效的推理为特点。该模型总共有 236B 参数,每次激活 21B 参数。DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。有关模型详细信息,请访问 <a href='https://huggingface.co/deepseek-ai/DeepSeek-V2.5' target='_blank'>DeepSeek-V2 Huggingface 页面</a>。</div>"
      },
      "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。",
      "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL",
      "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。由于机器学习特性,相同输入可能产生不同输出,请注意甄别。",
      "benchmark": {
        "AlpacaEval 2.0": "50.5",
        "ArenaHard": "76.2",
        "AlignBench": "8.04",
        "MT-Bench": "9.02",
        "HumanEval python": "89",
        "HumanEval Multi": "73.8",
        "LiveCodeBench(01-09)": "41.8",
        "Aider": "72.2",
        "SWE-verified": "16.8",
        "DS-FIM-Eval": "78.3",
        "DS-Arena-Code": "63.1"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V2.5",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "deepseek-v2.5",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "hosted_api": false,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-V2.5 是强大的专家混合(MoE)语言模型,以经济的训练和高效的推理为特点。该模型总共有 236B 参数,每次激活 21B 参数。DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。有关模型详细信息,请访问 <a href='https://huggingface.co/deepseek-ai/DeepSeek-V2.5' target='_blank'>DeepSeek-V2 Huggingface 页面</a>。</div>"
      },
      "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。",
      "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL",
      "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。由于机器学习特性,相同输入可能产生不同输出,请注意甄别。",
      "benchmark": {
        "AlpacaEval 2.0": "50.5",
        "ArenaHard": "76.2",
        "AlignBench": "8.04",
        "MT-Bench": "9.02",
        "HumanEval python": "89",
        "HumanEval Multi": "73.8",
        "LiveCodeBench(01-09)": "41.8",
        "Aider": "72.2",
        "SWE-verified": "16.8",
        "DS-FIM-Eval": "78.3",
        "DS-Arena-Code": "63.1"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V2.5",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    }
  ],
  "deepseek 3": [
    {
      "name": "deepseek-v3",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "hosted_api": true,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "3",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。</div>"
      },
      "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。",
      "license": "https://choosealicense.com/licenses/mit/",
      "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {
        "bbh": "87.5",
        "mmlu": "87.1",
        "mmlu-redux": "86.2",
        "mmlu-pro": "81.2",
        "drop": "89.0",
        "arc-easy": "98.9",
        "arc-challenge": "95.3",
        "hellaswag": "88.9",
        "piqa": "84.7",
        "winogrande": "84.9",
        "race-middle": "67.1",
        "race-high": "51.3",
        "triviaqa": "82.9",
        "naturalquestions": "40.0",
        "agieval": "79.6",
        "humaneval": "65.2",
        "mbpp": "75.4",
        "livecodebench-base": "49.2",
        "cruxeval-i": "67.3",
        "cruxeval-o": "69.8",
        "gsm8k": "89.3",
        "math": "61.6",
        "mgsm": "79.8",
        "cmath": "90.7",
        "cluewsc": "82.7",
        "c-eval": "90.1",
        "cmmlu": "88.8",
        "cmrc": "76.3",
        "c3": "78.6",
        "ccpm": "92.0",
        "mmmlu-non-english": "79.4",
        "gpqa": "68.4",
        "aime": "59.4"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V3-0324",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.008,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "pro-deepseek-v3",
      "arch": [
        "transformer",
        "decoder-only",
        "moe"
      ],
      "hosted_api": true,
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xxl",
      "by": "深度求索",
      "brand": "deepseek",
      "generation": "3",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><strong>企业专属服务专用模型: <code>pro-deepSeek-v3</code>。</strong>DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。</div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。</div>"
      },
      "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。",
      "license": "https://choosealicense.com/licenses/mit/",
      "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。",
      "benchmark": {
        "bbh": "87.5",
        "mmlu": "87.1",
        "mmlu-redux": "86.2",
        "mmlu-pro": "81.2",
        "drop": "89.0",
        "arc-easy": "98.9",
        "arc-challenge": "95.3",
        "hellaswag": "88.9",
        "piqa": "84.7",
        "winogrande": "84.9",
        "race-middle": "67.1",
        "race-high": "51.3",
        "triviaqa": "82.9",
        "naturalquestions": "40.0",
        "agieval": "79.6",
        "humaneval": "65.2",
        "mbpp": "75.4",
        "livecodebench-base": "49.2",
        "cruxeval-i": "67.3",
        "cruxeval-o": "69.8",
        "gsm8k": "89.3",
        "math": "61.6",
        "mgsm": "79.8",
        "cmath": "90.7",
        "cluewsc": "82.7",
        "c-eval": "90.1",
        "cmmlu": "88.8",
        "cmrc": "76.3",
        "c3": "78.6",
        "ccpm": "92.0",
        "mmmlu-non-english": "79.4",
        "gpqa": "68.4",
        "aime": "59.4"
      },
      "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V3-0324",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.008,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    }
  ],
  "fishaudio 1.5": [
    {
      "name": "fish-speech-1.5",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "Hanabi AI",
      "brand": "fishaudio",
      "generation": "1.5",
      "finetunable": false,
      "id": "mo-dakqc5b6ekc6nvmj",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀",
        "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!"
      },
      "highlights": {
        "title": "✨ 新模型亮点",
        "content": "🎙 fish-speech-1.5 语音大模型:让语音助手更懂您!超高精准度的语音识别与自然流畅的语音生成,支持多语种和方言,完美适配全球场景,您只需轻轻一句,AI 便能回应!"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://spdx.org/licenses/CC-BY-NC-SA-4.0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "gemma 2": [
    {
      "name": "gemma-2-27b-it",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "m",
      "by": "Google",
      "brand": "gemma",
      "generation": "2",
      "finetunable": false,
      "hosted_api": true,
      "id": "mo-c7zkcefa7qwaavzr",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "gemma-2-27b-it 是 270 亿参数规模的对话模型,基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。"
      },
      "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://ai.google.dev/gemma/terms",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "75.2 (5-shot, top-1)",
        "hellaswag": "86.4 (10-shot)",
        "piqa": "83.2 (0-shot)",
        "socialiqa": "53.7 (0-shot)",
        "boolq": "84.8 (0-shot)",
        "winogrande": "83.7 (partial score)",
        "arc-e": "88.6 (0-shot)",
        "arc-c": "71.4 (25-shot)",
        "triviaqa": "83.7 (5-shot)",
        "natural questions": "34.5 (5-shot)",
        "humaneval": "51.8 (pass@1)",
        "mbpp": "62.6 (3-shot)",
        "gsm8k": "74.0 (5-shot, maj@1)",
        "math": "42.3 (4-shot)",
        "agieval": "55.1 (3-5-shot)",
        "big-bench": "74.9 (3-shot, CoT)"
      },
      "benchmark_source": "https://huggingface.co/google/gemma-2-27b-it",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "gemma 1": [
    {
      "name": "gemma-7b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "s",
      "by": "Google",
      "brand": "gemma",
      "generation": "1",
      "finetunable": false,
      "id": "",
      "devid": "mo-c7erqymyiqe4ixhw",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Gemma-7B 是 70 亿参数规模的基础模型,除了原生支持的文本生成,也包括问答、摘要和推理等能力,可根据需求微调后适用于更多场景"
      },
      "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://ai.google.dev/gemma/terms",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "64.3(5-shot,top1)",
        "hellaswag": "81.2(0-shot)",
        "piqa": "81.2(0-shot)",
        "socialiqa": "51.8(0-shot)",
        "boolq": "83.2(0-shot)",
        "winogrande": "72.3(partial score)",
        "commonsenseqa": "71.3(7-shot)",
        "openbookqa": "52.8",
        "arc-e": "81.5",
        "arc-c": "53.2",
        "triviaqa": "63.4(5-shot)",
        "natualquestions": "23(5-shot)",
        "humaneval": "32.3(pass@1)",
        "mbpp": "44.4(3-shot)",
        "gsm8k": "46.4(maj@1)",
        "math": "24.3(4-shot)",
        "agieval": "41.7",
        "big-bench": "55.1"
      },
      "benchmark_source": "https://huggingface.co/google/gemma-7b",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "gemma 1.1": [
    {
      "name": "gemma-1.1-7b-it",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "s",
      "by": "Google",
      "brand": "gemma",
      "generation": "1.1",
      "finetunable": false,
      "hosted_api": false,
      "id": "",
      "devid": "mo-c7erqymyiqe4iwts",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>Gemma-1.1-7B-It 是 70 亿参数规模的对话模型,是在原始的指令调优 Gemma-7b-It 版本的更新。Gemma-1.1 基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。在伦理和安全层面,Gemma-1.1 较 Gemma 系列有了一系列的提升,根据 Google 的红帽测试(模拟网络攻击),主要在以下几方面的内容得到了提升:</p><br/><ul><li><strong>文本到文本内容安全</strong>:对涉及安全政策的提示进行人类评估,包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论。</li><li><strong>文本到文本表现性伤害</strong>:与相关的学术数据集进行基准测试,如 WinoBias  和BBQ 数据集。</li><li><strong>记忆能力</strong>:对训练数据的记忆能力进行自动化评估,包括个人可识别信息曝光的风险。</li><li><strong>大规模伤害</strong>:对“危险能力”进行测试,如化学、生物、放射性和核(CBRN)风险。</li></ul></div>"
      },
      "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://ai.google.dev/gemma/terms",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "64.3(5-shot,top1)",
        "hellaswag": "81.2(0-shot)",
        "piqa": "81.2(0-shot)",
        "socialiqa": "51.8(0-shot)",
        "boolq": "83.2(0-shot)",
        "winogrande": "72.3(partial score)",
        "commonsenseqa": "71.3(7-shot)",
        "openbookqa": "52.8",
        "arc-e": "81.5",
        "arc-c": "53.2",
        "triviaqa": "63.4(5-shot)",
        "natualquestions": "23(5-shot)",
        "humaneval": "32.3(pass@1)",
        "mbpp": "44.4(3-shot)",
        "gsm8k": "46.4(maj@1)",
        "math": "24.3(4-shot)",
        "agieval": "41.7",
        "big-bench": "55.1"
      },
      "benchmark_source": "https://huggingface.co/google/gemma-1.1-7b-it",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "glm 4": [
    {
      "name": "glm-4-9b-chat-1m",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "4",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。 除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "GLM-4-9B-Chat-1M 支持更大的上下文长度。"
      },
      "note": "此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "alignbench": "7.01",
        "mt-bench": "8.35",
        "ifeval": "69.0",
        "mmlu": "72.4",
        "c-eval": "75.6",
        "gsm8k": "79.6",
        "math": "50.6",
        "humaneval": "71.8",
        "natualcodebench": "32.2",
        "longbench-chat": "7.72"
      },
      "benchmark_source": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat-1m",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "glm-4-9b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "s",
      "by": "智谱 AI",
      "brand": "glm",
      "generation": "4",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "GLM-4-9B-Chat 是智谱 AI 推出的最新一代预训练模型 GLM-4-9B 的人类偏好对齐版本。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。"
      },
      "note": "此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "alignbench": "7.01",
        "mt-bench": "8.35",
        "ifeval": "69.0",
        "mmlu": "72.4",
        "c-eval": "75.6",
        "gsm8k": "79.6",
        "math": "50.6",
        "humaneval": "71.8",
        "natualcodebench": "32.2"
      },
      "benchmark_source": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "megrez": [
    {
      "name": "mt-infini-3b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "无问芯穹",
      "brand": "megrez",
      "finetunable": false,
      "id": "",
      "devid": "mo-c7j6y6xfrkdoobq3",
      "opensource": false,
      "shortdesc": {
        "title": "模型介绍",
        "content": "mt-infini-3b 由无问芯穹和摩尔线程联合实训,首次实现了在国产 GPU 千卡智算集群上对国产大语言模型的完整训练。该模型基于 Transformer 结构,使用了 1T token 的中英文训练数据集,支持多种语言,在各评测数据集上均有优秀的表现。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "mt-infini-3b 基于摩尔线程夸娥(KUAE)千卡智算集群和和无问芯穹的 AIStudio 完成了完整训练,在推理、微调成本方面具有极大优势,并且克服了其他 3B 模型上频现的指令遗忘问题。该模型支持量化,在端侧运行也具有良好性能表现。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "63",
        "mmlu": "55.38",
        "cmmlu": "63"
      },
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "https://cloud.infini-ai.com/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "megrez-3b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "s",
      "by": "无问芯穹",
      "brand": "megrez",
      "finetunable": false,
      "id": "mo-c73owqiotql7lozr",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Megrez-3B-Instruct 是由无问芯穹完全自主训练的大语言模型。Megrez-3B-Instruct 旨在通过软硬协同理念,打造一款极速推理、小巧精悍、极易上手的端侧智能解决方案。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<ol><li><strong>高精度</strong>:Megrez-3B-Instruct 虽然参数规模只有 3B,但通过数据质量的本质提升,成功弥合了模型性能代差,将上一代 14B 模型的能力高度压缩至 3B 大小,在主流榜单上取得了优秀的性能表现。</li><li><strong>高速度</strong>:模型小≠速度快。Megrez-3B-Instruct 通过软硬协同优化,确保了各结构参数与主流硬件高度适配,最大推理速度领先同精度模型 300%。</li><li><strong>简单易用</strong>:模型设计之初我们进行了激烈的讨论:应该在结构设计上留出更多软硬协同的空间(如 ReLU、稀疏化、更精简的结构等),还是使用经典结构便于直接用起来?我们选择了后者,即采用最原始的 LLaMA2 结构,开发者无需任何修改便可将模型部署于各种平台,最小化二次开发复杂度。</li><li><strong>丰富应用</strong>:我们提供了完整的 WebSearch 方案,相比 search_with_lepton,我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,并提供更好的总结效果。用户可以基于该功能构建属于自己的 Kimi 或 Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。</li></ol>"
      },
      "license": "https://www.apache.org/licenses/LICENSE-2.0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "81.4",
        "cmmlu": "74.5",
        "mmlu": "70.6",
        "mmlu-pro": "48.2",
        "human-eval": "62.2",
        "mbpp": "77.4",
        "gsm8k": "64.8",
        "math": "26.5",
        "mt-bench": "8.76",
        "align-bench": "6.91"
      },
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "https://cloud.infini-ai.com/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "megrez-7b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "无问芯穹",
      "brand": "megrez",
      "finetunable": false,
      "id": "mo-cf6e148312125257",
      "devid": "mo-c62sghsjvuo7ziyx",
      "opensource": false,
      "shortdesc": {
        "title": "模型介绍",
        "content": "由无问芯穹公司自主研发的 70 亿参数大语言模型。在逻辑推理、对话能力等方面有优秀的性能表现。配合无问芯穹自研高效推理引擎,同时支持 Nvidia 和 AMD 的 GPU,具备更快的推理速度,在性能表现方面更上一层楼。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<ul><li><strong>逻辑推理</strong>:在主流的 MMLU、C-Eval、CMMLU 等数据集上,无问天权模型取得了优秀甚至是时任最佳的精度表现。</li><li><strong>对话效果</strong>:我们准备了高质量对话数据来对模型进行指令微调,以优化模型的对话效果。对话数据的生产过程非常严格,包括问题收集、主题去重、模型生成草稿、人工改写、人工二次审核等步骤。我们通过启发式规则(例如字数、格式调整)、模型打分、结果对比等多种手法,清洗出内容更扎实,质量更可靠的答案。针对隐私信息及敏感问题,我们也设计了标准话术进行合理规避。目前对话效果在相同尺寸开源模型中取得了接近最优的效果表现。</li><li><strong>高效推理</strong>:无问芯穹提出了目前市面上最快的大模型推理方案 FlashDecoding++,不仅能带来比之前方法更强的加速能力(可以将 GPU 推理提速 2-4 倍),更重要的是还同时支持 NVIDIA 和 AMD 的 GPU,基于该方案的无问天权模型取得了优秀的推理速度性能。</li></ul>"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "20.5",
        "mmlu": "58.3",
        "cmmlu": "59.6"
      },
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "https://cloud.infini-ai.com/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "jina 2": [
    {
      "name": "jina-embeddings-v2-base-code",
      "arch": [
        "bert"
      ],
      "type": "embedding",
      "size": "s",
      "by": "Jina AI",
      "brand": "jina",
      "generation": "2",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": " jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "jina-embeddings-v2-base-code 是一个多语言嵌入模型,支持英语和 30 种常用编程语言,支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域,并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练,但借助 ALiBi 能力,可以扩展至 8000(甚至更长)的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用,尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数,在实现快速且内存高效的推理的同时,依然具有出色的性能。"
      },
      "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.1,
            "rate_output": 0.1,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "jina-embeddings-v2-base-zh",
      "arch": [
        "bert"
      ],
      "type": "embedding",
      "size": "s",
      "by": "Jina AI",
      "brand": "jina",
      "generation": "2",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": " jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "jina-embeddings-v2-base-zh 是支持中英双语的文本向量模型,支持长达 8192 字符的文本编码。该模型的研发基于 BERT 架构(JinaBERT),JinaBERT 是在 BERT 架构基础上的改进,首次将 ALiBi 应用到编码器架构中以支持更长的序列。 不同于以往的单语言/多语言向量模型,该模型设计双语模型来更好的支持单语言(中搜中)以及跨语言(中搜英)文档检索。"
      },
      "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.1,
            "rate_output": 0.1,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "llama 2": [
    {
      "name": "llama-2-7b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "Meta",
      "brand": "llama",
      "generation": "2",
      "finetunable": true,
      "id": "mo-f9c5988312125272",
      "devid": "mo-c63wjvurlsj5rxzs",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "lama2-7b-chat 是其中 70 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。"
      },
      "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama2/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "code": "16.8",
        "commonsense_reasoning": "63.9",
        "world_knowledge": "48.9",
        "math": "14.6",
        "mmlu": "45.3",
        "bbh": "32.6",
        "agieval": "29.3"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-2-13b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "m",
      "by": "Meta",
      "brand": "llama",
      "generation": "2",
      "finetunable": false,
      "id": "mo-be183b8312125274",
      "devid": "mo-c63wjvurlvhvrdgk",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Llama2-13b-chat 是其中 130 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。"
      },
      "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama2/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "code": "16.8",
        "commonsense_reasoning": "63.9",
        "world_knowledge": "48.9",
        "math": "14.6",
        "mmlu": "45.3",
        "bbh": "32.6",
        "agieval": "29.3"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-2-70b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xl",
      "by": "Meta",
      "brand": "llama",
      "generation": "2",
      "finetunable": false,
      "id": "mo-39240e8312125275",
      "devid": "mo-c63wjvurlvlsramn",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Llama2-70b-chat 是其中 700 亿参数的大模型,适用于 chat 场景,更擅长英文相关的内容,相较该系列里其他规模的模型,有更强的综合能力。"
      },
      "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama2/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "code": "37.5",
        "commonsense_reasoning": "71.9",
        "world_knowledge": "63.6",
        "math": "35.2",
        "mmlu": "68.9",
        "bbh": "51.2",
        "agieval": "54.2"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-2-70b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "xl",
      "by": "Meta",
      "brand": "llama",
      "generation": "2",
      "finetunable": false,
      "id": "mo-8babe28312125277",
      "devid": "mo-c63wjvurlxt3bbrt",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Llama2-70b-base 是其中 700 亿参数的基础大模型,适用于通用语言任务场景,更擅长英文相关的内容,相较该系列里其他规模的模型,有更强的综合能力。"
      },
      "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama2/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "code": "37.5",
        "commonsense_reasoning": "71.9",
        "world_knowledge": "63.6",
        "math": "35.2",
        "mmlu": "68.9",
        "bbh": "51.2",
        "agieval": "54.2"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "llama 3": [
    {
      "name": "llama-3-8b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "s",
      "by": "Meta",
      "brand": "llama",
      "generation": "3",
      "finetunable": false,
      "id": "mo-c7dy2jmzae57pbfw",
      "devid": "mo-c7dy2jmzae57pbfw",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 模型的数据的知识截止日期为 2023 年 3 月。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama3/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "68.4(5-shot)",
        "gpqa": "34.2(0-shot)",
        "humaneval": "62.2(0-shot)",
        "gsm8k": "79.6(8-shot,cot)",
        "math": "30(4-shot,cot)"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-3-infini-8b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "s",
      "by": "Meta",
      "brand": "llama",
      "generation": "3",
      "finetunable": false,
      "id": "mo-c7ejvabztyikgczl",
      "devid": "mo-c7ejvabztyikgczl",
      "mustApplyForTrial": true,
      "opensource": false,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama3/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "68.4(5-shot)",
        "gpqa": "34.2(0-shot)",
        "humaneval": "62.2(0-shot)",
        "gsm8k": "79.6(8-shot,cot)",
        "math": "30(4-shot,cot)"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-3-70b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xl",
      "by": "Meta",
      "brand": "llama",
      "generation": "3",
      "finetunable": false,
      "id": "mo-c7dy2l34tc6hi55j",
      "devid": "mo-c7dy2l34tc6hi55j",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Llama3-70b-Instruct 是此系列里 700 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-70b-Instruct 模型的数据的知识截止日期为 2023 年 12 月。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://llama.meta.com/llama3/license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "82(5-shot)",
        "gpqa": "39.5(0-shot)",
        "humaneval": "81.7(0-shot)",
        "gsm8k": "93(8-shot,cot)",
        "math": "50.4(4-shot,cot)"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "llama 3.1": [
    {
      "name": "llama-3.1-8b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "Meta",
      "brand": "llama",
      "generation": "3.1",
      "finetunable": false,
      "id": "mo-c7ssfghndw7j4sjs",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "MMLU": "69.4",
        "MMLU (CoT)": "73.0",
        "MMLU-Pro (CoT)": "48.3",
        "IFEval": "80.4",
        "ARC-C": "83.4",
        "GPQA": "30.4",
        "HumanEval": "72.6",
        "MBPP ++ base version": "72.8",
        "Multipl-E HumanEval": "50.8",
        "Multipl-E MBPP": "52.4",
        "GSM-8K (CoT)": "84.5",
        "MATH (CoT)": "51.9",
        "API-Bank": "82.6",
        "BFCL": "76.1",
        "Gorilla Benchmark API Bench": "8.2",
        "Nexus (0-shot)": "38.5",
        "Multilingual MGSM (CoT)": "68.9"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-3.1-70b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "xl",
      "by": "Meta",
      "brand": "llama",
      "generation": "3.1",
      "finetunable": false,
      "id": "mo-c7ssfpkkbefi7fni",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "MMLU": "83.6",
        "MMLU (CoT)": "86.0",
        "MMLU-Pro (CoT)": "66.4",
        "IFEval": "87.5",
        "ARC-C": "94.8",
        "GPQA": "41.7",
        "HumanEval": "80.5",
        "MBPP ++ base version": "86.0",
        "Multipl-E HumanEval": "65.5",
        "Multipl-E MBPP": "62.0",
        "GSM-8K (CoT)": "95.1",
        "MATH (CoT)": "68.0",
        "API-Bank": "90.0",
        "BFCL": "84.8",
        "Gorilla Benchmark API Bench": "29.7",
        "Nexus (0-shot)": "56.7",
        "Multilingual MGSM (CoT)": "86.9"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "llama-3.1-405b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xxl",
      "by": "Meta",
      "brand": "llama",
      "generation": "3.1",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。LLaMA 3.1 405B 的性能可与最佳的闭源模型媲美。这个模型将使开源社区能够解锁新的能力,例如合成数据生成和模型蒸馏。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-405B/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "MMLU": "87.3",
        "MMLU (CoT)": "88.6",
        "MMLU-Pro (CoT)": "73.3",
        "IFEval": "88.6",
        "ARC-C": "96.9",
        "GPQA": "50.7",
        "HumanEval": "89.0",
        "MBPP ++ base version": "88.6",
        "Multipl-E HumanEval": "75.2",
        "Multipl-E MBPP": "65.7",
        "GSM-8K (CoT)": "96.8",
        "MATH (CoT)": "73.8",
        "API-Bank": "92.0",
        "BFCL": "88.5",
        "Gorilla Benchmark API Bench": "35.3",
        "Nexus (0-shot)": "58.7",
        "Multilingual MGSM (CoT)": "91.6"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "llama 3.3": [
    {
      "name": "llama-3.3-70b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "xl",
      "by": "Meta",
      "brand": "llama",
      "generation": "3.3",
      "finetunable": false,
      "id": "mo-dahxyr6ryarbruqd",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Meta 发布的 LLaMA 3.3 多语言大规模语言模型(LLMs)是一个经过预训练和指令微调的生成模型,提供 70B 规模(文本输入/文本输出)。该模型使用超过 15T 的数据进行训练,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,知识更新截止于 2023 年 12 月。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "LLaMA 3.3 的指令微调文本模型(70B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。"
      },
      "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "MMLU": "83.6",
        "MMLU (CoT)": "86.0",
        "MMLU-Pro (CoT)": "68.9",
        "IFEval": "92.1",
        "ARC-C": "94.8",
        "GPQA": "50.5",
        "HumanEval": "88.4",
        "MBPP ++ base version": "87.6",
        "Multipl-E HumanEval": "65.5",
        "Multipl-E MBPP": "62.0",
        "GSM-8K (CoT)": "95.1",
        "MATH (CoT)": "77.0",
        "API-Bank": "90.0",
        "BFCL": "77.3",
        "Gorilla Benchmark API Bench": "29.7",
        "Nexus (0-shot)": "56.7",
        "Multilingual MGSM (CoT)": "91.1"
      },
      "benchmark_source": "https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct/blob/main/LICENSE",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "qwen 2.5": [
    {
      "name": "qwen2.5-7b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-c73jn4a64oewfiic",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>指令调优的 7B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:查询为 28,键值为 4</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu-pro": "56.3",
        "mmlu-redux": "75.4",
        "gpqa": "36.4",
        "math": "75.5",
        "gsm8k": "91.6",
        "humaneval": "84.8",
        "mbpp": "79.2",
        "multipl-e": "70.4",
        "livecodebench": "28.7",
        "livebench-0831": "35.9",
        "ifeval-strict-prompt": "71.2",
        "arena-hard": "52.0",
        "alignbench-v1.1": "7.33",
        "mtbench": "8.75"
      },
      "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.0016,
            "rate_output": 0.0016,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-coder-7b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-c76v42mk3zgsieqi",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>Qwen2.5-Coder-7B-Instruct 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:Q 为 28,KV 为 4</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "humaneval": "88.4",
        "mbpp": "83.5",
        "evalplus": "81.9",
        "multipl-e": "76.5",
        "mceval": "60.3",
        "livecodebench": "35.9",
        "cruxeval": "65.9",
        "bigcodebench": "29.6",
        "aider": "57.1",
        "spider": "82.0",
        "bird-sql": "51.1",
        "codearena": "43.1"
      },
      "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "qwen2.5-coder-7b",
      "type": "text",
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>Qwen2.5-Coder-7B 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:Q 为 28,KV 为 4</li></ul></div>"
      },
      "note": "不建议在对话中使用 Base 模型。您可以对 Base 模型进行后续训练,例如有监督微调(SFT)、基于人类反馈的强化学习(RLHF)、持续预训练等,或者在该模型上进行中间任务训练。此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "humaneval": "61.6",
        "mbpp": "68.8",
        "multipl-e": "57.5",
        "cruxeval": "56.0",
        "bigcodebench": "31.0",
        "fill-in-the-middle": "86.2",
        "gsm8k": "83.9",
        "math": "46.6",
        "mmlu": "68.0",
        "arc-challenge": "60.9"
      },
      "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "qwen2.5-vl-7b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2.5-VL 系列模型提升了模型的智能水平、实用性和适用性,使其在自然对话、内容创作、专业知识服务及代码开发等场景中表现更优。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>Qwen2.5-VL 在文档和图表理解方面具有显著优势,并且无需针对特定任务进行微调即可作为视觉代理执行任务。<ul><li><strong>大规模参数与数据</strong>:参数规模显著扩大,基于更庞大的训练数据集,大幅提升了模型的性能和泛化能力。</li><li><strong>多语言支持</strong>:支持超过99种语言,具备强大的跨语言理解和生成能力,尤其在中文、英文及常见语种上的表现更为突出。</li><li><strong>对话理解强化</strong>:优化了对复杂对话场景的理解能力,能准确捕捉上下文信息和用户意图,提供更自然、连贯的交互体验。</li><li><strong>代码写作能力</strong>:深度优化了代码生成和理解能力,支持多种编程语言,并可在对话中解释代码逻辑或撰写高质量代码片段。</li><li><strong>多模态处理</strong>:融合了图像、文本等多种信息处理能力,初步实现了跨模态的分析与生成功能,增强场景化应用潜力。</li><li><strong>人机协作与定制</strong>:支持指令(Instruction)微调和基于用户反馈的实时优化,可快速适配个性化需求及业务场景。</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-14b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "m",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-c73jpcrezry3lqvx",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>指令调优的 14B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:147 亿</li><li><strong>非嵌入参数数量</strong>:131 亿</li><li><strong>层数</strong>:48 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu-pro": "63.7",
        "mmlu-redux": "80.0",
        "gpqa": "45.5",
        "math": "80.0",
        "gsm8k": "94.8",
        "humaneval": "83.5",
        "mbpp": "82.0",
        "multipl-e": "72.8",
        "livecodebench": "42.6",
        "livebench-0831": "44.4",
        "ifeval-strict-prompt": "81.0",
        "arena-hard": "68.3",
        "alignbench-v1.1": "7.94",
        "mtbench": "8.88"
      },
      "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.0035,
            "rate_output": 0.0035,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-coder-14b",
      "type": "text",
      "hosted_api": false,
      "size": "m",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>Qwen2.5-Coder-14B 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:147 亿</li><li><strong>非嵌入参数数量</strong>:131 亿</li><li><strong>层数</strong>:48</li><li><strong>注意力头数 (GQA)</strong>:Q 为 40,KV 为 8</li></ul></div>"
      },
      "note": "不建议在对话中使用 Base 模型。您可以对 Base 模型进行后续训练,例如有监督微调(SFT)、基于人类反馈的强化学习(RLHF)、持续预训练等,或者在该模型上进行中间任务训练。此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "humaneval": "64.0",
        "mbpp": "71.4",
        "multipl-e": "59.9",
        "cruxeval": "66.4",
        "bigcodebench": "37.0",
        "fill-in-the-middle": "87.7",
        "gsm8k": "88.7",
        "math": "52.8",
        "mmlu": "75.2",
        "arc-challenge": "66.0"
      },
      "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "qwen2.5-32b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>指令调优的 32B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu-pro": "69.0",
        "mmlu-redux": "83.9",
        "gpqa": "49.5",
        "math": "83.1",
        "gsm8k": "95.9",
        "humaneval": "88.4",
        "mbpp": "84.0",
        "multipl-e": "75.4",
        "livecodebench": "51.2",
        "livebench-0831": "50.7",
        "ifeval-strict-prompt": "79.5",
        "arena-hard": "74.5",
        "alignbench-v1.1": "7.93",
        "mtbench": "9.20"
      },
      "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.0049,
            "rate_output": 0.0049,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-coder-32b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-c76v42mk3zgsieqi",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>Qwen2.5-Coder-Instruct 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64</li><li><strong>注意力头数 (GQA)</strong>:Q 28,KV 为 4</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "humaneval": "92.7",
        "mbpp": "90.2",
        "evalplus": "86.3",
        "multipl-e": "79.4",
        "mceval": "65.9",
        "livecodebench": "31.4",
        "cruxeval": "83.4",
        "bigcodebench": "38.3",
        "aider": "73.7",
        "spider": "85.1",
        "bird-sql": "58.4",
        "codearena": "68.9"
      },
      "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "qwen2.5-vl-32b-instruct",
      "arch": [
        "transformer",
        "vision-language",
        "multi-modal"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational",
        "image-analysis",
        "video-understanding",
        "visual-agent"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2.5-VL-32B-Instruct 是 Qwen 家族中的一款强大的视觉-语言模型,专为自然对话、内容创作和多模态任务设计。通过大规模训练数据和强化学习的优化,它在数学、逻辑推理、文档理解、视频理解和视觉代理任务中表现出色,在多个基准测试中展现了强大的竞争力。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>Qwen2.5-VL-32B-Instruct 在视觉-语言能力上实现了显著提升,无需特定任务微调即可作为多功能视觉代理。<ul><li><strong>视觉理解</strong>:擅长分析图像中的文本、图表、图标和布局,同时能识别常见物体。</li><li><strong>视觉代理能力</strong>:可作为计算机和手机使用的代理,具备动态推理和工具指挥能力。</li><li><strong>长视频理解</strong>:能够理解超过1小时的视频,并精确定位相关事件片段。</li><li><strong>视觉定位</strong>:通过生成边界框或点精确定位图像中的物体,并提供稳定的 JSON 输出。</li><li><strong>结构化输出</strong>:支持从发票、表单和表格中生成结构化数据,适用于金融和商业场景。</li><li><strong>数学与推理提升</strong>:通过强化学习增强了问题解决能力,提供更详细、清晰的回答。</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0058,
            "rate_output": 0.058,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwq-32b-preview",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-dag25yzdjt2vhbfd",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "QwQ-32B-Preview 是由 Qwen 团队开发的一款实验性研究模型,专注于提升 AI 的推理能力。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>32.5B 因果语言模型的规格如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul>该模型为预览版本,虽然已经展现了相当有潜力的分析功能,但仍存在<a href='https://huggingface.co/Qwen/QwQ-32B-Preview'>若干限制</a>。</div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwq-32b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-davcljvn4fpnapdr",
      "devid": "",
      "mustApplyForTrial": false,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,QwQ 具备思考和推理能力,在下游任务尤其是难题上能取得显著性能提升。QwQ-32B 是一款中等规模的推理模型,其性能可与最先进的推理模型相媲美,例如 DeepSeek-R1 和 o1-mini。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>32.5B 因果语言模型的规格如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练(预训练 & 后训练(监督微调和强化学习))</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>"
      },
      "note": "使用建议:1. 使用 Temperature=0.6 和 TopP=0.95,而不是贪婪解码(Greedy decoding),以避免无限重复。2. 使用 TopK 值在 20 到 40 之间,以过滤掉稀有 token 的出现,同时保持生成输出的多样性。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 对于多选题,建议在提示词中加入以下 JSON 结构以标准化响应:'请在答案字段中仅显示选项字母,例如 \"answer\": \"C\"'。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qvq-72b-preview",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-dakqco2j5kcz6fr5",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "🚀 重磅预告!全新音频/视频/多模型模型即将震撼来袭! 🚀",
        "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!"
      },
      "highlights": {
        "title": "✨ 新模型亮点",
        "content": "🌐 QVQ-72B-Preview 多模态大模型打破传统文本、图像、语音的界限,跨越模态壁垒,让AI在不同领域间自如切换,呈现多维度的智慧理解。一套系统,全面覆盖各种互动需求。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/Qwen/QVQ-72B-Preview/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-72b-instruct",
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "mo-c73knlqigltjgtjq",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div><p>指令调优的 720 亿参数 Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:727 亿</li><li><strong>非嵌入参数数量</strong>:700 亿</li><li><strong>层数</strong>:80 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 64,键值 (KV) 为 8</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu-pro": "71.1",
        "mmlu-redux": "86.8",
        "gpqa": "49.0",
        "math": "83.1",
        "gsm8k": "95.8",
        "humaneval": "86.6",
        "mbpp": "88.2",
        "multipl-e": "75.1",
        "livecodebench": "55.5",
        "livebench-0831": "52.3",
        "ifeval-strict-prompt": "84.1",
        "arena-hard": "81.2",
        "alignbench-v1.1": "8.16",
        "mtbench": "9.35"
      },
      "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2.5-vl-72b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2.5-VL 系列模型提升了模型的智能水平、实用性和适用性,使其在自然对话、内容创作、专业知识服务及代码开发等场景中表现更优。旗舰模型 Qwen2.5-VL-72B-Instruct 在涵盖多个领域和任务的基准测试中展现出强大的竞争力,包括大学水平的问题解答、数学、文档理解、通用问答、视频理解以及视觉代理任务等。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<div>Qwen2.5-VL 在文档和图表理解方面具有显著优势,并且无需针对特定任务进行微调即可作为视觉代理执行任务。<ul><li><strong>大规模参数与数据</strong>:参数规模显著扩大,基于更庞大的训练数据集,大幅提升了模型的性能和泛化能力。</li><li><strong>多语言支持</strong>:支持超过99种语言,具备强大的跨语言理解和生成能力,尤其在中文、英文及常见语种上的表现更为突出。</li><li><strong>对话理解强化</strong>:优化了对复杂对话场景的理解能力,能准确捕捉上下文信息和用户意图,提供更自然、连贯的交互体验。</li><li><strong>代码写作能力</strong>:深度优化了代码生成和理解能力,支持多种编程语言,并可在对话中解释代码逻辑或撰写高质量代码片段。</li><li><strong>多模态处理</strong>:融合了图像、文本等多种信息处理能力,初步实现了跨模态的分析与生成功能,增强场景化应用潜力。</li><li><strong>人机协作与定制</strong>:支持指令(Instruction)微调和基于用户反馈的实时优化,可快速适配个性化需求及业务场景。</li></ul></div>"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.01,
            "rate_output": 0.01,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "qwen 1": [
    {
      "name": "qwen-7b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1",
      "finetunable": false,
      "id": "mo-b6999a8312125258",
      "devid": "mo-c62sglv2yvgm2xe3",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "通义千问-7B-chat(Qwen-7B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 70 亿参数规模的大语言模型。相较于 Qwen-7B-Base 模型,Qwen-7B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": ""
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "59.7(0-shot), 59.3(5-shot)",
        "humaneval": "37.2",
        "mmlu": "55.8(0-shot), 57(5-shot)",
        "gsm8k": "50.3(0-shot), 54.1(8-shot)"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen-14b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "m",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1",
      "finetunable": false,
      "id": "mo-531d778312125259",
      "devid": "mo-c62sgmhhlo2ylge3",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "通义千问-14B-chat(Qwen-14B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 140 亿参数规模的大语言模型。相较于 Qwen-14B-Base 模型,Qwen-14B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": ""
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "69.8(0-shot), 71.7(5-shot)",
        "humaneval": "43.9",
        "mmlu": "64.6(0-shot), 66.5(5-shot)",
        "gsm8k": "60.1(0-shot), 59.3(8-shot)"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-14B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen-72b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1",
      "finetunable": false,
      "id": "mo-3ee2f58312125261",
      "devid": "mo-c62sgmy6bg6fqdlj",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "通义千问-72B-chat(Qwen-72B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 720 亿参数规模的大语言模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "相较于 Qwen-72B-Base 模型,Qwen-72B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "c-eval": "80.1(0-shot), 82.9(5-shot)",
        "humaneval": "64.6",
        "mmlu": "74.3(0-shot), 75(5-shot)",
        "gsm8k": "76.4(0-shot), 75.7(8-shot)"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-72B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen-72b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1",
      "finetunable": false,
      "id": "mo-d4f7f48312125262",
      "devid": "mo-c62sgnhscode5rws",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的 720 亿参数规模的模型。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen-72B 是基于 Transformer 的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "77.4(5-shot)",
        "c-eval": "83.3(5-shot)",
        "gsm8k": "78.9(8-shot)",
        "math": "35.2(4-shot)",
        "humaneval": "35.4(0-shot)",
        "mbpp": "52.2(3-shot)",
        "bbh": "67.7(3-shot)",
        "agieval": "62.5(0-shot)",
        "gaokao": "87.6(0-shot)",
        "cmmlu": "83.6(5-shot)"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-72B/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "qwen 1.5": [
    {
      "name": "qwen1.5-4b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": false,
      "id": "mo-c72iptkwfaocwosx",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "56.1",
        "c-eval": "67.6",
        "gsm8k": "57.0",
        "math": "10.0",
        "humaneval": "25.6",
        "mbpp": "29.2",
        "bbh": "32.5",
        "cmmlu": "66.7"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-4B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-7b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": true,
      "id": "mo-20b4d98312125281",
      "devid": "mo-c63wjvurl2trrdo5",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "61",
        "c-eval": "74.1",
        "gsm8k": "62.5",
        "math": "20.3",
        "humaneval": "36",
        "mbpp": "37.4",
        "bbh": "40.2",
        "cmmlu": "73.1"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-7B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-7b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-7b 是其中 70 亿参数的基础模型,适合根据具体应用场景目标进行微调后适配。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "61",
        "c-eval": "74.1",
        "gsm8k": "62.5",
        "math": "20.3",
        "humaneval": "36",
        "mbpp": "37.4",
        "bbh": "40.2",
        "cmmlu": "73.1"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-7B/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-14b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "m",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": true,
      "id": "mo-e6eb638312125282",
      "devid": "mo-c63wjvurl2znb2ng",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "67.6",
        "c-eval": "78.7",
        "gsm8k": "70.1",
        "math": "29.2",
        "humaneval": "37.8",
        "mbpp": "44",
        "bbh": "53.7",
        "cmmlu": "77.6"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-14B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.0035,
            "rate_output": 0.0035,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-32b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": false,
      "id": "",
      "devid": "mo-c7erqymygsueipbs",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "73.4",
        "c-eval": "83.5",
        "gsm8k": "77.4",
        "math": "36.1",
        "humaneval": "73.2",
        "mbpp": "49.4",
        "bbh": "66.8",
        "cmmlu": "82.3"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-32B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-72b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": false,
      "id": "mo-6d49138312125284",
      "devid": "mo-c63wjvurl4apa5wl",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "77.5",
        "c-eval": "84.1",
        "gsm8k": "79.5",
        "math": "34.1",
        "humaneval": "41.5",
        "mbpp": "53.4",
        "bbh": "65.5",
        "cmmlu": "83.5"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-72B-Chat/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen1.5-72b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "1.5",
      "finetunable": false,
      "id": "mo-b3ef7a8312125285",
      "devid": "mo-c63wjvurl4gkqobd",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Qwen1.5-72b-base 是其中的 720 亿参数的基础大模型,适合多种场景的使用。"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "77.5",
        "c-eval": "84.1",
        "gsm8k": "79.5",
        "math": "34.1",
        "humaneval": "41.5",
        "mbpp": "53.4",
        "bbh": "65.5",
        "cmmlu": "83.5"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-72B/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "qwen 2": [
    {
      "name": "qwen2-7b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "70.5",
        "gpqa": "25.3",
        "humaneval": "79.9",
        "mbpp": "67.2",
        "gsm8k": "82.3",
        "math": "49.6",
        "c-eval": "77.2"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": 0.0016,
            "rate_output": 0.0016,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2-7b",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2",
      "finetunable": true,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/qwen/Qwen2-7B/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "70.3",
        "gpqa": "31.8",
        "humaneval": "51.2",
        "mbpp": "65.9",
        "gsm8k": "79.9",
        "math": "44.2",
        "c-eval": "83.2",
        "cmmlu": "83.9"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-7B/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2-vl-7b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "s",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2",
      "finetunable": false,
      "id": "mo-dakk73u6yeqhnn2g",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀",
        "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!"
      },
      "highlights": {
        "title": "✨ 新模型亮点",
        "content": "🌐 Qwen2-VL 多模态大模型打破传统文本、图像、语音的界限,跨越模态壁垒,让AI在不同领域间自如切换,呈现多维度的智慧理解。一套系统,全面覆盖各种互动需求。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://choosealicense.com/licenses/apache-2.0/",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.002,
            "rate_output": 0.002,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2-57b-a14b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "l",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/qwen/Qwen2-57B-A14B-Instruct/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "75.4",
        "gpqa": "34,3",
        "humaneval": "79.9",
        "mbpp": "70.9",
        "gsm8k": "79.6",
        "math": "49.1",
        "c-eval": "80.5"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-57B-A14B-Instruct/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.001,
            "rate_output": 0.001,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    },
    {
      "name": "qwen2-72b-instruct",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "xl",
      "by": "阿里云",
      "brand": "qwen",
      "generation": "2",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。"
      },
      "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/file/view/master?fileName=LICENSE&status=0",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "82.3",
        "gpqa": "42.4",
        "humaneval": "86.0",
        "mbpp": "52.2",
        "gsm8k": "91.1",
        "math": "59.7",
        "c-eval": "83.8"
      },
      "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.005,
            "rate_output": 0.005,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "stable diffusion": [
    {
      "name": "stable-diffusion-1.5",
      "arch": [
        "transformer",
        "latent diffusion"
      ],
      "type": "image",
      "hosted_api": false,
      "size": "s",
      "by": "Runway ML",
      "brand": "stable diffusion",
      "finetunable": false,
      "id": "",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Stable Diffusion 是一种扩散式文本到图像生成模型,该模型使用 CLIP ViT-L/14 作为固定预训练文本编码器,能够根据任何文本输入生成照片级逼真的图像。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<ul><li><strong>基于 v1.2 的权重初始化</strong>:v1.5 检查点基于 v1.2 权重初始化,并在 595k 步上进行了微调。</li><li><strong>高分辨率支持</strong>:在 512x512 分辨率下进行训练,提升了图像细节和质量。</li><li><strong>改进的无分类指导采样</strong>:通过 10% 的文本条件丢弃优化了无分类指导采样。</li></ul>"
      },
      "note": "使用此模型需遵循 Stability AI 许可协议。请查看相关的协议内容。",
      "license": "https://huggingface.co/spaces/CompVis/stable-diffusion-license",
      "disclaimer": "由于技术特性,平台无法完全保证您通过本服务获得的输出的合法性、真实性、准确性及完整性。您应对本服务中的输出自行判断,并承担使用内容引起的所有风险。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答疑问。相关观点仅限于算法所触达有限数据呈现的结果,并不代表平台立场。由于机器学习特性,相同的输入可能产生不同的输出结果,请注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n"
    },
    {
      "name": "stable-diffusion-xl",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "image",
      "hosted_api": false,
      "size": "s",
      "by": "Stability AI",
      "brand": "stable diffusion",
      "finetunable": false,
      "id": "mo-c7rx2f3xpbrpoimz",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Stable Diffusion XL 是由 Stability AI 研发并开源的文生图大模型,创意图像生成能力行业领先。指令理解能力强,支持反向 Prompt 定义不希望生成的内容。SDXL 相比于v1.5 做了重大的改进,并且与当前为开源的文生图 SOTA 模型(midjorney)效果相当,具体改进之处包括: 更大的 unet backbone(是之前的3倍); 增加了 refinement 模块用于改善生成图片的质量;更高效的训练技巧等。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "<ul><li><strong>更快的生成速度</strong>:SDXL 通过优化算法和模型结构,显著提高了图像生成的速度。相较于原版 Stable Diffusion,SDXL 能够在更短的时间内生成高质量的图像,大大提高了工作效率。</li><li><strong>更高的图像质量</strong>:SDXL 采用了更大规模的训练数据和更先进的模型结构,使得生成的图像更加真实、细腻。同时,SDXL 还引入了多种新技术,如对抗性训练、感知损失函数等,进一步提升了图像质量。</li><li><strong>更强的可扩展性</strong>:SDXL 的设计使得其具有良好的可扩展性,可以方便地与其他模型和技术进行集成,从而满足更多复杂的应用需求。</li></ul>"
      },
      "note": "SD 系列模型需要申请试用。模型使用受 Stability AI 许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/LICENSE.md",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "vidu 1.5": [
    {
      "name": "vidu1.5",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": false,
      "size": "l",
      "by": "生数科技",
      "brand": "vidu",
      "generation": "1.5",
      "finetunable": false,
      "id": "mo-dakqd2krkrngv7wl",
      "devid": "",
      "mustApplyForTrial": true,
      "opensource": false,
      "shortdesc": {
        "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀",
        "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!"
      },
      "highlights": {
        "title": "✨ 新模型亮点",
        "content": "🎥 VIDU1.5 视频大模型,不仅能分析视频内容,还能理解背后的情感、意图和复杂场景,为您提供智能视频解读、编辑建议及创作灵感。视频生成、推荐与互动,一切皆能触手可及!"
      },
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {},
      "benchmark_source": "",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "yi 1.5": [
    {
      "name": "yi-1.5-34b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "hosted_api": true,
      "size": "l",
      "by": "零一万物",
      "brand": "yi",
      "generation": "1.5",
      "finetunable": false,
      "id": "",
      "devid": "",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Yi-1.5 是 Yi 的升级版本。 它使用 500B Tokens 的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "与 Yi 相比,Yi-1.5 在编程、数学、推理和指令执行能力方面表现更为出色,同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。"
      },
      "note": "此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://github.com/01-ai/Yi/blob/main/LICENSE",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "76.8",
        "gsm8k": "90.2",
        "math": "50.1",
        "humaneval": "75.2",
        "mbpp": "74.6",
        "mt-bench": "8.5",
        "alignbench": "7.2",
        "arenahard": "42.6",
        "alpacaeval2.0": "36.6"
      },
      "benchmark_source": "https://www.modelscope.cn/models/01ai/Yi-1.5-34B-Chat",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ],
  "yi 1": [
    {
      "name": "yi-34b-chat",
      "arch": [
        "transformer",
        "decoder-only",
        "dense"
      ],
      "type": "text",
      "tags": [
        "text-generation",
        "conversational"
      ],
      "size": "l",
      "by": "零一万物",
      "brand": "yi",
      "generation": "1",
      "finetunable": false,
      "hosted_api": false,
      "id": "",
      "devid": "mo-c7erqymylmbqjyf6",
      "opensource": true,
      "shortdesc": {
        "title": "模型介绍",
        "content": "Yi 系列是由零一万物研发的基于 Transformer 和 Llama 开源社区研发的大语言模型系列。Yi-34B-chat 是其中一个 340 亿参数规模,针对于对话场景进行优化的大语言模型,适合用于多种用途,在 MMLU、CMMLU、BBH、GSM8k 等多个主流的学术数据集上相较已有的开源模型都有不俗的表现,是一个相对推理性价比较高的模型规模。"
      },
      "highlights": {
        "title": "模型亮点",
        "content": "Yi-34B-chat 预训练过程中使用了 3T 的训练数据,该模型的数据的知识截止日期为 2023 年 6 月"
      },
      "note": "此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。",
      "license": "https://www.lingyiwanwu.com/yi-license",
      "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。",
      "benchmark": {
        "mmlu": "67.62(0-shot),73.46(5-shot)",
        "cmmlu": "79.11(0-shot),81.34(5-shot)",
        "c-eval": "77.04(0-shot),78.53(5-shot)",
        "truthfulqa": "62.43(0-shot)",
        "bbh": "51.41(0-shot),71.74(5-shot)",
        "gsm8k": "71.65(0-shot),75.97(5-shot)"
      },
      "benchmark_source": "https://www.modelscope.cn/models/01ai/Yi-34B/summary",
      "pricing": {
        "postpaid": [
          {
            "rule_id": "serverless",
            "description": "预置大模型 API 服务",
            "rate": 0.0029,
            "rate_output": 0.0029,
            "unit": "元/每千 Token",
            "discount": 1,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "dedicatedLora",
            "description": "使用 LoRA 部署自定义微调模型 API 服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "每小时出账",
              "description": ""
            }
          },
          {
            "rule_id": "finetune",
            "description": "大模型微调服务",
            "rate": null,
            "unit": "元/每千 Token",
            "discount": 0,
            "billing_method": {
              "method": "训练完成后出账",
              "description": ""
            }
          }
        ],
        "prepaid": []
      },
      "auth": "/iam/secret/key",
      "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n"
    }
  ]
}