预置模型列表
大模型服务平台(GenStudio)预置了来源于诸多厂商的主流系列模型。
访问模型广场
模型广场页面集中展示大模型服务平台(GenStudio)预置的模型。您可以通过模型广场顶部与左侧的标签筛选模型。每个预置大模型均以卡片的形式呈现。
模型名称一般与模型厂商命名保持一致。您可以从模型卡片标签中直接查看模型所属厂商、支持的芯片、适用场景、上下文长度等信息。
模型卡片左下角可能带有以下便捷入口:
- 可体验:可直接进入体验中心,开启互动体验,例如对话、生成图像、生成视频等。大语言模型支持配置 System Prompt 和其他参数。图像和视频模型暂仅支持随机预置提示词,可修改基本参数。
- 可微调:支持 GenStudio 快捷微调服务。
点击模型卡片进入详情页,可查看模型介绍、上下文长度、评测数据等(评测数据来自于模型发布方)。如果该预置模型提供 API 服务,将提供调用说明、调用示例等。
大语言模型
DeepSeek
deepseek-r1-distill-qwen-32b
开源
DeepSeek-R1-Distill-Qwen-32B 是基于 DeepSeek-R1 蒸馏而来的模型,在 Qwen2.5-32B 的基础上使用 DeepSeek-R1 生成的样本进行微调。该模型在各种基准测试中表现出色,保持了强大的推理能力。
模型亮点
- 类型:蒸馏语言模型
- 基础模型:Qwen2.5-32B
- 参数规模:328亿
- 张量类型:BF16
- 推荐温度参数:0.5-0.7
aime_2024_pass@1
72.6
aime_2024_cons@64
83.3
math500_pass@1
94.3
gpqa_diamond_pass@1
62.1
livecodebench_pass@1
57.2
codeforces_rating
1691
deepseek-r1
开源
DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。
NOTE
使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE
模型亮点
mmlu
90.8
mmlu-redux
92.9
mmlu-pro
84.0
drop
92.2
if-eval
83.3
gpqa-diamond
71.5
simpleqa
30.1
frames
82.5
alpacaeval2.0
87.6
arenahard
92.3
livecodebench
65.9
codeforces_percentile
96.3
codeforces_rating
2029
swe_verified
49.2
aider-polyglot
53.3
aime_2024
79.8
math-500
97.3
cnmo_2024
78.8
cluewsc
92.8
c-eval
91.8
c-simpleqa
63.7
NOTE
deepseek-v3
开源
DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。
模型亮点
bbh
87.5
mmlu
87.1
mmlu-redux
86.2
mmlu-pro
81.2
drop
89.0
arc-easy
98.9
arc-challenge
95.3
hellaswag
88.9
piqa
84.7
winogrande
84.9
race-middle
67.1
race-high
51.3
triviaqa
82.9
naturalquestions
40.0
agieval
79.6
humaneval
65.2
mbpp
75.4
livecodebench-base
49.2
cruxeval-i
67.3
cruxeval-o
69.8
gsm8k
89.3
math
61.6
mgsm
79.8
cmath
90.7
cluewsc
82.7
c-eval
90.1
cmmlu
88.8
cmrc
76.3
c3
78.6
ccpm
92.0
mmmlu-non-english
79.4
gpqa
68.4
aime
59.4
pro-deepseek-v3
开源
pro-deepSeek-v3
。DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。模型亮点
bbh
87.5
mmlu
87.1
mmlu-redux
86.2
mmlu-pro
81.2
drop
89.0
arc-easy
98.9
arc-challenge
95.3
hellaswag
88.9
piqa
84.7
winogrande
84.9
race-middle
67.1
race-high
51.3
triviaqa
82.9
naturalquestions
40.0
agieval
79.6
humaneval
65.2
mbpp
75.4
livecodebench-base
49.2
cruxeval-i
67.3
cruxeval-o
69.8
gsm8k
89.3
math
61.6
mgsm
79.8
cmath
90.7
cluewsc
82.7
c-eval
90.1
cmmlu
88.8
cmrc
76.3
c3
78.6
ccpm
92.0
mmmlu-non-english
79.4
gpqa
68.4
aime
59.4
Gemma 2
gemma-2-27b-it
开源申请试用
Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。
模型亮点
gemma-2-27b-it 是 270 亿参数规模的对话模型,基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。
mmlu
75.2 (5-shot, top-1)
hellaswag
86.4 (10-shot)
piqa
83.2 (0-shot)
socialiqa
53.7 (0-shot)
boolq
84.8 (0-shot)
winogrande
83.7 (partial score)
arc-e
88.6 (0-shot)
arc-c
71.4 (25-shot)
triviaqa
83.7 (5-shot)
natural questions
34.5 (5-shot)
humaneval
51.8 (pass@1)
mbpp
62.6 (3-shot)
gsm8k
74.0 (5-shot, maj@1)
math
42.3 (4-shot)
agieval
55.1 (3-5-shot)
big-bench
74.9 (3-shot, CoT)
NOTE
LLaMA 3.3
llama-3.3-70b-instruct
开源申请试用
Meta 发布的 LLaMA 3.3 多语言大规模语言模型(LLMs)是一个经过预训练和指令微调的生成模型,提供 70B 规模(文本输入/文本输出)。该模型使用超过 15T 的数据进行训练,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,知识更新截止于 2023 年 12 月。
NOTE
LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE
模型亮点
LLaMA 3.3 的指令微调文本模型(70B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。
MMLU
83.6
MMLU (CoT)
86.0
MMLU-Pro (CoT)
68.9
IFEval
92.1
ARC-C
94.8
GPQA
50.5
HumanEval
88.4
MBPP ++ base version
87.6
Multipl-E HumanEval
65.5
Multipl-E MBPP
62.0
GSM-8K (CoT)
95.1
MATH (CoT)
77.0
API-Bank
90.0
BFCL
77.3
Gorilla Benchmark API Bench
29.7
Nexus (0-shot)
56.7
Multilingual MGSM (CoT)
91.1
LLaMA 3.1
llama-3.1-70b-instruct
开源申请试用
Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。
NOTE
LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE
模型亮点
LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。
MMLU
83.6
MMLU (CoT)
86.0
MMLU-Pro (CoT)
66.4
IFEval
87.5
ARC-C
94.8
GPQA
41.7
HumanEval
80.5
MBPP ++ base version
86.0
Multipl-E HumanEval
65.5
Multipl-E MBPP
62.0
GSM-8K (CoT)
95.1
MATH (CoT)
68.0
API-Bank
90.0
BFCL
84.8
Gorilla Benchmark API Bench
29.7
Nexus (0-shot)
56.7
Multilingual MGSM (CoT)
86.9
LLaMA 3
llama-3-8b-instruct
开源申请试用
Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。
模型亮点
Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 模型的数据的知识截止日期为 2023 年 3 月。
mmlu
68.4(5-shot)
gpqa
34.2(0-shot)
humaneval
62.2(0-shot)
gsm8k
79.6(8-shot,cot)
math
30(4-shot,cot)
llama-3-infini-8b-instruct
闭源申请试用
Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。
模型亮点
为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。
mmlu
68.4(5-shot)
gpqa
34.2(0-shot)
humaneval
62.2(0-shot)
gsm8k
79.6(8-shot,cot)
math
30(4-shot,cot)
Yi 1.5
yi-1.5-34b-chat
开源
Yi-1.5 是 Yi 的升级版本。 它使用 500B Tokens 的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
模型亮点
与 Yi 相比,Yi-1.5 在编程、数学、推理和指令执行能力方面表现更为出色,同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。
mmlu
76.8
gsm8k
90.2
math
50.1
humaneval
75.2
mbpp
74.6
mt-bench
8.5
alignbench
7.2
arenahard
42.6
alpacaeval2.0
36.6
GLM 4
glm-4-9b-chat
开源
GLM-4-9B-Chat 是智谱 AI 推出的最新一代预训练模型 GLM-4-9B 的人类偏好对齐版本。
NOTE
此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0
模型亮点
在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。
alignbench
7.01
mt-bench
8.35
ifeval
69.0
mmlu
72.4
c-eval
75.6
gsm8k
79.6
math
50.6
humaneval
71.8
natualcodebench
32.2
ChatGLM 3
chatglm3-6b-base
开源可以微调
ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。
NOTE
模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。
模型亮点
ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,更适合于复杂场景的微调后使用。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
avarage_longbench
50.2
summary_longbench
26.2
single_doc_qa_longbench
45.8
multi_doc_qa_longbench
46.1
code_longbench
56.2
few_shot_longbench
61.2
synthetic_longbench
65
NOTE
chatglm3
闭源
ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。
NOTE
此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。
gsm8k
72.3
math
25.7
bbh
66.1
mmlu
61.4
c-eval
69
cmmlu
67.5
mbpp
52.4
agieval
53.7
NOTE
Megrez
megrez-3b-instruct
开源
Megrez-3B-Instruct 是由无问芯穹完全自主训练的大语言模型。Megrez-3B-Instruct 旨在通过软硬协同理念,打造一款极速推理、小巧精悍、极易上手的端侧智能解决方案。
模型亮点
- 高精度:Megrez-3B-Instruct 虽然参数规模只有 3B,但通过数据质量的本质提升,成功弥合了模型性能代差,将上一代 14B 模型的能力高度压缩至 3B 大小,在主流榜单上取得了优秀的性能表现。
- 高速度:模型小≠速度快。Megrez-3B-Instruct 通过软硬协同优化,确保了各结构参数与主流硬件高度适配,最大推理速度领先同精度模型 300%。
- 简单易用:模型设计之初我们进行了激烈的讨论:应该在结构设计上留出更多软硬协同的空间(如 ReLU、稀疏化、更精简的结构等),还是使用经典结构便于直接用起来?我们选择了后者,即采用最原始的 LLaMA2 结构,开发者无需任何修改便可将模型部署于各种平台,最小化二次开发复杂度。
- 丰富应用:我们提供了完整的 WebSearch 方案,相比 search_with_lepton,我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,并提供更好的总结效果。用户可以基于该功能构建属于自己的 Kimi 或 Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
c-eval
81.4
cmmlu
74.5
mmlu
70.6
mmlu-pro
48.2
human-eval
62.2
mbpp
77.4
gsm8k
64.8
math
26.5
mt-bench
8.76
align-bench
6.91
Qwen 2.5
qwen2.5-7b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement
模型亮点
指令调优的 7B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers
- 参数数量:76.1 亿
- 非嵌入参数数量:65.3 亿
- 层数:28
- 注意力头数 (GQA):查询为 28,键值为 4
mmlu-pro
56.3
mmlu-redux
75.4
gpqa
36.4
math
75.5
gsm8k
91.6
humaneval
84.8
mbpp
79.2
multipl-e
70.4
livecodebench
28.7
livebench-0831
35.9
ifeval-strict-prompt
71.2
arena-hard
52.0
alignbench-v1.1
7.33
mtbench
8.75
NOTE
qwen2.5-14b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement
模型亮点
指令调优的 14B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:带有 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:147 亿
- 非嵌入参数数量:131 亿
- 层数:48 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
mmlu-pro
63.7
mmlu-redux
80.0
gpqa
45.5
math
80.0
gsm8k
94.8
humaneval
83.5
mbpp
82.0
multipl-e
72.8
livecodebench
42.6
livebench-0831
44.4
ifeval-strict-prompt
81.0
arena-hard
68.3
alignbench-v1.1
7.94
mtbench
8.88
NOTE
qwen2.5-32b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
模型亮点
指令调优的 32B Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:325 亿
- 非嵌入参数数量:310 亿
- 层数:64 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
mmlu-pro
69.0
mmlu-redux
83.9
gpqa
49.5
math
83.1
gsm8k
95.9
humaneval
88.4
mbpp
84.0
multipl-e
75.4
livecodebench
51.2
livebench-0831
50.7
ifeval-strict-prompt
79.5
arena-hard
74.5
alignbench-v1.1
7.93
mtbench
9.20
NOTE
qwen2.5-coder-32b-instruct
开源
Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:
- 显著提升代码生成、代码推理和代码修复能力。
- 支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。
- 支持长上下文处理。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement
模型亮点
Qwen2.5-Coder-Instruct 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers
- 参数数量:325 亿
- 非嵌入参数数量:310 亿
- 层数:64
- 注意力头数 (GQA):Q 28,KV 为 4
humaneval
92.7
mbpp
90.2
evalplus
86.3
multipl-e
79.4
mceval
65.9
livecodebench
31.4
cruxeval
83.4
bigcodebench
38.3
aider
73.7
spider
85.1
bird-sql
58.4
codearena
68.9
qwen2.5-vl-32b-instruct
开源
Qwen2.5-VL-32B-Instruct 是 Qwen 家族中的一款强大的视觉-语言模型,专为自然对话、内容创作和多模态任务设计。通过大规模训练数据和强化学习的优化,它在数学、逻辑推理、文档理解、视频理解和视觉代理任务中表现出色,在多个基准测试中展现了强大的竞争力。
模型亮点
- 视觉理解:擅长分析图像中的文本、图表、图标和布局,同时能识别常见物体。
- 视觉代理能力:可作为计算机和手机使用的代理,具备动态推理和工具指挥能力。
- 长视频理解:能够理解超过1小时的视频,并精确定位相关事件片段。
- 视觉定位:通过生成边界框或点精确定位图像中的物体,并提供稳定的 JSON 输出。
- 结构化输出:支持从发票、表单和表格中生成结构化数据,适用于金融和商业场景。
- 数学与推理提升:通过强化学习增强了问题解决能力,提供更详细、清晰的回答。
qwq-32b-preview
开源
QwQ-32B-Preview 是由 Qwen 团队开发的一款实验性研究模型,专注于提升 AI 的推理能力。
模型亮点
32.5B 因果语言模型的规格如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:325 亿
- 非嵌入参数数量:310 亿
- 层数:64 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
qwq-32b
开源
QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,QwQ 具备思考和推理能力,在下游任务尤其是难题上能取得显著性能提升。QwQ-32B 是一款中等规模的推理模型,其性能可与最先进的推理模型相媲美,例如 DeepSeek-R1 和 o1-mini。
NOTE
使用建议:1. 使用 Temperature=0.6 和 TopP=0.95,而不是贪婪解码(Greedy decoding),以避免无限重复。2. 使用 TopK 值在 20 到 40 之间,以过滤掉稀有 token 的出现,同时保持生成输出的多样性。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\boxed{}中。' 4. 对于多选题,建议在提示词中加入以下 JSON 结构以标准化响应:'请在答案字段中仅显示选项字母,例如 "answer": "C"'。
模型亮点
32.5B 因果语言模型的规格如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练(预训练 & 后训练(监督微调和强化学习))
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:325 亿
- 非嵌入参数数量:310 亿
- 层数:64 层
- 注意力头数 (GQA):查询 (Q) 为 40,键值 (KV) 为 8
qwen2.5-72b-instruct
开源
Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:
- 显著增加知识量,在编程与数学领域的能力得到极大提升。
- 在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。
- 支持长上下文处理。
- 支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
模型亮点
指令调优的 720 亿参数 Qwen2.5 模型特点如下:
- 类型:因果语言模型
- 训练阶段:预训练与后训练
- 架构:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers
- 参数数量:727 亿
- 非嵌入参数数量:700 亿
- 层数:80 层
- 注意力头数 (GQA):查询 (Q) 为 64,键值 (KV) 为 8
mmlu-pro
71.1
mmlu-redux
86.8
gpqa
49.0
math
83.1
gsm8k
95.8
humaneval
86.6
mbpp
88.2
multipl-e
75.1
livecodebench
55.5
livebench-0831
52.3
ifeval-strict-prompt
84.1
arena-hard
81.2
alignbench-v1.1
8.16
mtbench
9.35
NOTE
Qwen 2
qwen2-7b-instruct
开源
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/file/view/master?fileName=LICENSE&status=0
mmlu
70.5
gpqa
25.3
humaneval
79.9
mbpp
67.2
gsm8k
82.3
math
49.6
c-eval
77.2
qwen2-7b
开源仅微调可以微调
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-7B/file/view/master?fileName=LICENSE&status=0
mmlu
70.3
gpqa
31.8
humaneval
51.2
mbpp
65.9
gsm8k
79.9
math
44.2
c-eval
83.2
cmmlu
83.9
qwen2-72b-instruct
开源
Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。
NOTE
此模型的使用受许可协议的约束。请在下方查看相关的协议内容。
https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/file/view/master?fileName=LICENSE&status=0
mmlu
82.3
gpqa
42.4
humaneval
86.0
mbpp
52.2
gsm8k
91.1
math
59.7
c-eval
83.8
Qwen 1.5
qwen1.5-7b-chat
开源仅微调可以微调
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。
模型亮点
Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。
mmlu
61
c-eval
74.1
gsm8k
62.5
math
20.3
humaneval
36
mbpp
37.4
bbh
40.2
cmmlu
73.1
qwen1.5-14b-chat
开源可以微调
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升
模型亮点
Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。
mmlu
67.6
c-eval
78.7
gsm8k
70.1
math
29.2
humaneval
37.8
mbpp
44
bbh
53.7
cmmlu
77.6
qwen1.5-32b-chat
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升
模型亮点
Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。
mmlu
73.4
c-eval
83.5
gsm8k
77.4
math
36.1
humaneval
73.2
mbpp
49.4
bbh
66.8
cmmlu
82.3
qwen1.5-72b-chat
开源
Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升
模型亮点
Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。
mmlu
77.5
c-eval
84.1
gsm8k
79.5
math
34.1
humaneval
41.5
mbpp
53.4
bbh
65.5
cmmlu
83.5
其他模型
JINA Embeddings
jina-embeddings-v2-base-code
开源
jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。
NOTE
此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
模型亮点
jina-embeddings-v2-base-code 是一个多语言嵌入模型,支持英语和 30 种常用编程语言,支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域,并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练,但借助 ALiBi 能力,可以扩展至 8000(甚至更长)的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用,尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数,在实现快速且内存高效的推理的同时,依然具有出色的性能。
jina-embeddings-v2-base-zh
开源
jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。
NOTE
此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
模型亮点
jina-embeddings-v2-base-zh 是支持中英双语的文本向量模型,支持长达 8192 字符的文本编码。该模型的研发基于 BERT 架构(JinaBERT),JinaBERT 是在 BERT 架构基础上的改进,首次将 ALiBi 应用到编码器架构中以支持更长的序列。 不同于以往的单语言/多语言向量模型,该模型设计双语模型来更好的支持单语言(中搜中)以及跨语言(中搜英)文档检索。
BGE Embeddings / Rerank
bge-m3
开源
BGE-M3 来自 BAAI 和中国科学技术大学,是 BAAI 开源的模型。
NOTE
此模型的使用受 MIT 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md
模型亮点
BGE-M3 在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding 支持超过 100 种工作语言,支持 8192 长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。
bge-reranker-v2-m3
开源
bge-reranker-v2-m3 是由智源推出的一个轻量级的交叉编码器模型。
NOTE
此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
模型亮点
bge-reranker-v2-m3 是以 bge-m3 为基础的开发的,参数量为 568M,具有强大的多语言能力,易于部署,具有快速的推理能力,特别适用于多语言重排序场景。
模型总表
Model ID | 模型厂商 | 模型类型 |
---|---|---|
bge-m3 | BAAI | 嵌入模型 |
bge-reranker-v2-m3 | BAAI | 重排序模型 |
chatglm3-6b-base | 智谱 AI | 大语言模型 |
chatglm3 | 智谱 AI | 大语言模型 |
deepseek-r1-distill-qwen-32b | 深度求索 | 大语言模型 |
deepseek-r1 | 深度求索 | 大语言模型 |
deepseek-v3 | 深度求索 | 大语言模型 |
pro-deepseek-v3 | 深度求索 | 大语言模型 |
gemma-2-27b-it | 大语言模型 | |
glm-4-9b-chat | 智谱 AI | 大语言模型 |
megrez-3b-instruct | 无问芯穹 | 大语言模型 |
jina-embeddings-v2-base-code | Jina AI | 嵌入模型 |
jina-embeddings-v2-base-zh | Jina AI | 嵌入模型 |
llama-3-8b-instruct | Meta | 大语言模型 |
llama-3-infini-8b-instruct | Meta | 大语言模型 |
llama-3.1-70b-instruct | Meta | 大语言模型 |
llama-3.3-70b-instruct | Meta | 大语言模型 |
qwen2.5-7b-instruct | 阿里云 | 大语言模型 |
qwen2.5-14b-instruct | 阿里云 | 大语言模型 |
qwen2.5-32b-instruct | 阿里云 | 大语言模型 |
qwen2.5-coder-32b-instruct | 阿里云 | 大语言模型 |
qwen2.5-vl-32b-instruct | 阿里云 | 大语言模型 |
qwq-32b-preview | 阿里云 | 大语言模型 |
qwq-32b | 阿里云 | 大语言模型 |
qwen2.5-72b-instruct | 阿里云 | 大语言模型 |
qwen1.5-14b-chat | 阿里云 | 大语言模型 |
qwen1.5-32b-chat | 阿里云 | 大语言模型 |
qwen1.5-72b-chat | 阿里云 | 大语言模型 |
qwen2-7b-instruct | 阿里云 | 大语言模型 |
qwen2-72b-instruct | 阿里云 | 大语言模型 |
yi-1.5-34b-chat | 零一万物 | 大语言模型 |
{ "baichuan 2": [ { "name": "baichuan2-7b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "百川智能", "brand": "baichuan", "generation": "2", "finetunable": false, "id": "mo-6e8b708312125268", "devid": "mo-c62sgpdydzalxzm5", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。" }, "highlights": { "title": "模型亮点", "content": "Baichuan2-7b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-7b-base`,仅供参考。", "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "54", "mmlu": "54.16", "cmmlu": "57.07", "gaokao": "47.47", "agieval": "42.73", "bbh": "41.56" }, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "baichuan2-13b-base", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "m", "by": "百川智能", "brand": "baichuan", "generation": "2", "finetunable": false, "id": "mo-a2c3888312125271", "devid": "mo-c62sgqb2hhaaikd5", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。" }, "highlights": { "title": "模型亮点", "content": "Baichuan2-13b-base 是 130 亿参数规模的基础模型,适用于通用对话和文本续写,较 chat 模型更适合于复杂场景的微调后使用。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "58.1", "mmlu": "59.17", "cmmlu": "61.97", "gaokao": "54.33", "agieval": "48.17", "bbh": "48.78" }, "benchmark_source": "https://github.com/baichuan-inc/Baichuan2/tree/main", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "baichuan2-13b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "m", "by": "百川智能", "brand": "baichuan", "generation": "2", "finetunable": false, "id": "mo-11c3d58312125270", "devid": "mo-c62sgprozgcehzsv", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。" }, "highlights": { "title": "模型亮点", "content": "Baichuan2-13b-chat 是 130 亿参数规模用于对话的模型,在 C-Eval、MMLU、CMMLU 等主流评测数据集上都有不俗的表现。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。评测数据来自 `baichuan2-13b-base`,仅供参考。", "license": "https://github.com/baichuan-inc/Baichuan2/tree/main#协议", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "58.1", "mmlu": "59.17", "cmmlu": "61.97", "gaokao": "54.33", "agieval": "48.17", "bbh": "48.78" }, "benchmark_source": "https://github.com/baichuan-inc/Baichuan2/tree/main", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "bge 1": [ { "name": "bge-m3", "arch": [ "bert" ], "type": "embedding", "size": "s", "by": "BAAI", "brand": "bge", "generation": "1", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": " BGE-M3 来自 BAAI 和中国科学技术大学,是 BAAI 开源的模型。" }, "highlights": { "title": "模型亮点", "content": "BGE-M3 在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。M3-Embedding 支持超过 100 种工作语言,支持 8192 长度的输入文本,同时支持密集检索(Dense Retrieval)、多向量检索(Multi-Vector Retrieval)和稀疏检索(Sparse Retrieval),为现实世界中的信息检索(IR)应用提供了统一的模型基础,通过这几种检索方式的组合,取得了良好的混合召回效果。" }, "note": "此模型的使用受 MIT 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用独占实例部署大模型 API 服务", "rate": 0.1, "rate_output": 0.1, "unit": "分钟", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "bge-reranker-v2-m3", "arch": [ "bert" ], "type": "rerank", "size": "s", "by": "BAAI", "brand": "bge", "generation": "1", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": " bge-reranker-v2-m3 是由智源推出的一个轻量级的交叉编码器模型。" }, "highlights": { "title": "模型亮点", "content": "bge-reranker-v2-m3 是以 bge-m3 为基础的开发的,参数量为 568M,具有强大的多语言能力,易于部署,具有快速的推理能力,特别适用于多语言重排序场景。" }, "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.1, "rate_output": 0.1, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "glm 2": [ { "name": "chatglm2-6b-32k", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "2", "finetunable": false, "id": "mo-c7ajkzldycfxqv2p", "devid": "mo-c7ajkzldycfxqv2p", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。" }, "highlights": { "title": "模型亮点", "content": "相较于 ChatGLM2-6B,ChatGLM2-6b-32k 支持更长的模型上下文。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "45.46", "c-eval": "50.1", "gsm8k": "28.05", "bbh": "51.2" }, "benchmark_source": "https://github.com/THUDM/ChatGLM2-6B", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "chatglm2-6b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "2", "finetunable": false, "id": "mo-c7ai6fqzpapcqzxb", "devid": "mo-c7ai6fqzpapcqzxb", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "ChatGLM2-6b 是由智谱开发的 ChatGLM 系列的第二代版本,支持中英双语的 60 亿参数规模的开源模型。在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,在 MMLU、C-Eval、GSM8K、BBH 等主流学术数据集上,都得到了显著的性能提升,并通过基于 FlashAttention 技术,提升了对话模型的上下文长度(Context Length),允许更多轮次的对话。" }, "highlights": { "title": "模型亮点", "content": "" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "45.46", "c-eval": "50.1", "gsm8k": "28.05", "bbh": "51.2" }, "benchmark_source": "https://github.com/THUDM/ChatGLM2-6B", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "glm 3": [ { "name": "chatglm3-6b-32k", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "3", "finetunable": false, "id": "mo-7a83098312125265", "devid": "mo-c62sgogds3xbodq3", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。相较于 ChatGLM 之前系列的模型,ChatGLM3 采用了更多样的训练数据,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。" }, "highlights": { "title": "模型亮点", "content": "ChatGLM3-6b-32k 在 ChatGLM3-6b 基础上进一步强化了对于长文本的理解能力。详见官方在 LongBench 评测集的测试结果。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "gsm8k": "72.3", "math": "25.7", "bbh": "66.1", "mmlu": "61.4", "c-eval": "69", "cmmlu": "67.5", "mbpp": "52.4", "agieval": "53.7", "avarage_longbench": "50.2", "summary_longbench": "26.2", "single_doc_qa_longbench": "45.8", "multi_doc_qa_longbench": "46.1", "code_longbench": "56.2", "few_shot_longbench": "61.2", "synthetic_longbench": "65" }, "benchmark_source": "https://github.com/THUDM/ChatGLM3", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "chatglm3-6b-base", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "3", "finetunable": true, "id": "mo-ebdebb8312125267", "devid": "mo-c62sgowixmndfvv4", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "ChatGLM3-6b-base 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源的基础模型。" }, "highlights": { "title": "模型亮点", "content": "ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,更适合于复杂场景的微调后使用。" }, "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b-base/file/view/master?fileName=MODEL_LICENSE&status=1", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "gsm8k": "72.3", "math": "25.7", "bbh": "66.1", "mmlu": "61.4", "c-eval": "69", "cmmlu": "67.5", "mbpp": "52.4", "agieval": "53.7", "avarage_longbench": "50.2", "summary_longbench": "26.2", "single_doc_qa_longbench": "45.8", "multi_doc_qa_longbench": "46.1", "code_longbench": "56.2", "few_shot_longbench": "61.2", "synthetic_longbench": "65" }, "benchmark_source": "https://github.com/THUDM/ChatGLM3", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.1, "rate_output": 0.1, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "chatglm3-6b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "3", "finetunable": false, "id": "mo-5ec6868312125264", "devid": "mo-c62sgnybqvmq5h2w", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "ChatGLM3-6b 是由智谱开发的 ChatGLM 系列最新一代的 60 亿参数规模的开源模型。ChatGLM3 采用了全新设计的 Prompt 格式,并原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。" }, "highlights": { "title": "模型亮点", "content": "" }, "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/file/view/master?fileName=MODEL_LICENSE&status=1", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "gsm8k": "72.3", "math": "25.7", "bbh": "66.1", "mmlu": "61.4", "c-eval": "69", "cmmlu": "67.5", "mbpp": "52.4", "agieval": "53.7" }, "benchmark_source": "https://github.com/THUDM/ChatGLM3", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "chatglm3", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "l", "by": "智谱 AI", "brand": "glm", "generation": "3", "finetunable": false, "id": "mo-c7ajmmoymzewjqu4", "devid": "mo-c7ajmmoymzewjqu4", "opensource": false, "shortdesc": { "title": "模型介绍", "content": "ChatGLM3 是智谱 AI 与清华 KEG 实验室发布的闭源模型,经过海量中英标识符的预训练与人类偏好对齐训练,相比一代模型在 MMLU、C-Eval、GSM8K 分别取得了 16%、36%、280% 的提升,并登顶中文任务榜单 C-Eval。适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等。" }, "highlights": { "title": "模型亮点", "content": "" }, "note": "此模型为闭源模型,无官方评测数据。以下提供 ChatGLM3-6B-Base 的评测数据,仅供参考。", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "gsm8k": "72.3", "math": "25.7", "bbh": "66.1", "mmlu": "61.4", "c-eval": "69", "cmmlu": "67.5", "mbpp": "52.4", "agieval": "53.7" }, "benchmark_source": "https://github.com/THUDM/ChatGLM3", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "cogvideox": [ { "name": "cogvideox-2b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "video", "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "cogvideox", "finetunable": false, "id": "mo-c7uwkqqyucmjiqft", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "CogVideoX 是由智谱开发并开源的最新的视频生成模型系列,与智谱清影为同源模型。该模型暂时仅支持输入英文提示词,可生成 720 * 480 的 6 秒视频,在人物高清特写,电影镜头等场景上都有不俗的表现。" }, "highlights": { "title": "模型亮点", "content": "<ul><li><strong>与“清影”同源</strong>:CogVideoX-2b 与智谱 AI 之前推出的 AI 视频生成功能「清影」技术同源,继承了「清影」的高效指令遵循能力和内容连贯性 。</li><li><strong>视频生成</strong>:提示词上限为 226 个 token,可通过控制镜头语言、景别角度、光影效果、主体、场景等因素,生成多样化的视频内容。</li><li><strong>技术创新</strong>:自研高效的 3D VAE,配合3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。</li></ul>" }, "note": "模型使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://www.modelscope.cn/models/ZhipuAI/CogVideoX-2b/file/view/master?fileName=LICENSE&status=1", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "dbrx": [ { "name": "dbrx-instruct", "arch": [ "transformer", "decoder-only", "moe" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xxl", "by": "Databricks", "brand": "dbrx", "finetunable": false, "hosted_api": false, "id": "", "devid": "mo-c7erqymylmbqj6pn", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DBRX 是一个基于 Transformer 架构基础的 decoder-only 的大语言模型(LLM),它使用了一个细粒度的专家混合(MoE)架构,总共有 1320 亿参数,其中 360 亿参数在任何输入上都是活跃的。它在 12 万亿个文本和代码数据标记上进行了预训练。与其他开放的 MoE 模型如 Mixtral-8x7B 和 Grok-1 相比,DBRX 使用了更多的小型专家,提供更多的专家组合可能,并进一步提升模型效果。DBRX 使用旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)。DBRX 在 12T 的 Databricks 精标数据上进行预训练。" }, "highlights": { "title": "模型亮点", "content": "DBRX Instruct 在 DBRX Base 的基础上,进行了指令遵循的微调,可专门用于少轮次交互。DBRX Instruct在大语言模型的多种权威数据集上都有着不俗的表现,尤其在数学与代码的能力上,DBRX Instruct 在 HumanEval(代码评估)、GSM8k(数学评测)上的得分都在主流模型中属于顶尖水平。" }, "note": "DBRX 系列模型需要申请试用。模型使用受 Databricks Open Model License 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://www.databricks.com/legal/open-model-license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "arc-c": "68.9(25-shot)", "hellaswag": "89.0(10-shot)", "piqa": "81.2(0-shot)", "mmlu": "73.5(5-shot)", "truthfulqa": "66.9(0-shot)", "winogrande": "81.8(5-shot)", "gsm8k": "66.9(cot, 5-shot, maj@1)", "gauntlet": "66.8(v0.3, avg of 30+ diverse tasks)", "humaneval": "70.1(0-shot, pass@1)" }, "benchmark_source": "https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "deepseek 2": [ { "name": "deepseek-coder-v2-lite-base-awq", "type": "text", "tags": [ "text-generation", "code-completion" ], "hosted_api": false, "size": "s", "by": "深度求索", "brand": "deepseek", "generation": "2", "finetunable": false, "id": "mo-c77r6xfkxs2yofnk", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-Coder-V2-Lite-Base-AWQ 是 DeepSeek-Coder-V2-Lite-Base 的 AWQ 量化版本。模型具有 2.6B 参数,使用 I32 和 FP16 张量类型。" }, "highlights": { "title": "模型亮点", "content": "<div>作为量化模型,DeepSeek-Coder-V2-Lite-Base-AWQ 提供更经济的计算和存储效率。有关模型详细信息,请访问 <a href='https://huggingface.co/TechxGenus/DeepSeek-Coder-V2-Lite-Base-AWQ' target='_blank'>DeepSeek-Coder-V2-Lite-Base-AWQ 页面</a>。</div>" }, "note": "此模型源自 DeepSeek-Coder-V2,它在代码智能任务中表现出色,支持 338 种编程语言,并在编码和数学推理方面显著提升。", "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL", "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "deepseek-coder-v2-lite-instruct-awq", "type": "text", "tags": [ "text-generation", "code-completion" ], "hosted_api": false, "size": "s", "by": "深度求索", "brand": "deepseek", "generation": "2", "finetunable": false, "id": "mo-c77r6fraoffmk2xf", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-Coder-V2-Lite-Instruct-AWQ 是 DeepSeek-Coder-V2-Lite-Instruct 的 AWQ 量化版本。模型具有 2.6B 参数,使用 I32 和 FP16 张量类型。" }, "highlights": { "title": "模型亮点", "content": "<div>作为量化模型,DeepSeek-Coder-V2-Lite-Instruct-AWQ 提供更经济的计算和存储效率。有关模型详细信息,请访问 <a href='https://huggingface.co/TechxGenus/DeepSeek-Coder-V2-Lite-Instruct-AWQ' target='_blank'>DeepSeek-Coder-V2-Lite-Instruct-AWQ 页面</a>。</div>" }, "note": "此模型源自 DeepSeek-Coder-V2,它在代码智能任务中表现出色,支持 338 种编程语言,并在编码和数学推理方面显著提升。", "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL", "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" } ], "deepseek r1": [ { "name": "deepseek-r1-distill-qwen-32b", "type": "text", "tags": [ "text-generation", "conversational", "reasoning" ], "hosted_api": true, "size": "l", "by": "深度求索", "brand": "deepseek", "generation": "r1", "finetunable": false, "opensource": true, "id": "mo-daokgxphuinwvst2", "devid": "", "shortdesc": { "title": "模型介绍", "content": "<div><p>DeepSeek-R1-Distill-Qwen-32B 是基于 DeepSeek-R1 蒸馏而来的模型,在 Qwen2.5-32B 的基础上使用 DeepSeek-R1 生成的样本进行微调。该模型在各种基准测试中表现出色,保持了强大的推理能力。</p></div>" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,在密集模型领域实现了新的最先进结果。<ul><li><strong>类型</strong>:蒸馏语言模型</li><li><strong>基础模型</strong>:Qwen2.5-32B</li><li><strong>参数规模</strong>:328亿</li><li><strong>张量类型</strong>:BF16</li><li><strong>推荐温度参数</strong>:0.5-0.7</li></ul></div>" }, "note": "此模型的使用受许可协议约束,请查看以下许可部分。", "license": "https://huggingface.co/Qwen/Qwen2.5-32B/blob/main/LICENSE", "disclaimer": "如果未使用适当的温度设置,模型可能会出现无限重复或输出不连贯的问题。使用者需自行承担使用风险。", "benchmark": { "aime_2024_pass@1": "72.6", "aime_2024_cons@64": "83.3", "math500_pass@1": "94.3", "gpqa_diamond_pass@1": "62.1", "livecodebench_pass@1": "57.2", "codeforces_rating": "1691" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "详细的API文档请访问 DeepSeek 官方平台:platform.deepseek.com" }, { "name": "deepseek-r1-yn-ascend", "arch": [ "transformer", "decoder-only", "moe" ], "type": "text", "tags": [ "text-generation", "conversational", "reasoning" ], "hosted_api": false, "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "r1", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>" }, "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。", "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE", "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.004, "rate_output": 0.004, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "deepseek-r1", "arch": [ "transformer", "decoder-only", "moe" ], "hosted_api": true, "type": "text", "tags": [ "text-generation", "conversational", "reasoning" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "r1", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>" }, "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。", "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE", "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": { "mmlu": "90.8", "mmlu-redux": "92.9", "mmlu-pro": "84.0", "drop": "92.2", "if-eval": "83.3", "gpqa-diamond": "71.5", "simpleqa": "30.1", "frames": "82.5", "alpacaeval2.0": "87.6", "arenahard": "92.3", "livecodebench": "65.9", "codeforces_percentile": "96.3", "codeforces_rating": "2029", "swe_verified": "49.2", "aider-polyglot": "53.3", "aime_2024": "79.8", "math-500": "97.3", "cnmo_2024": "78.8", "cluewsc": "92.8", "c-eval": "91.8", "c-simpleqa": "63.7" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.004, "rate_output": 0.016, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "pro-deepseek-r1", "arch": [ "transformer", "decoder-only", "moe" ], "hosted_api": false, "type": "text", "tags": [ "text-generation", "conversational", "reasoning" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "r1", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><strong>企业专属服务专用模型: <code>pro-deepSeek-r1</code>。</strong>DeepSeek-R1 是一个专注于推理能力的大语言模型,通过创新的训练流程实现了与 OpenAI-o1 相当的数学、代码和推理任务表现。该模型采用了冷启动数据和大规模强化学习相结合的方式进行训练。</div>" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-R1 采用了创新的训练 pipeline,包含两个强化学习阶段用于发现更好的推理模式和对齐人类偏好,以及两个监督微调阶段作为模型推理和非推理能力的基础。模型的推理模式可以被提炼到更小的模型中,基于此已开源了多个基于 Qwen2.5 和 Llama3 系列的蒸馏检查点(1.5B 到 70B 不等)。</div>" }, "note": "使用建议:1. 为获得预期性能,使用 DeepSeek-R1 系列模型(包括基准测试)时,建议将 temperature 参数设置在 0.5-0.7 之间(推荐 0.6),以防止无限重复或输出不连贯。2. 避免添加系统提示词 (system prompt),所有指令应包含在用户提示词 (user prompt) 中。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 评估模型性能时,建议进行多次测试并取平均值。", "license": "https://github.com/deepseek-ai/DeepSeek-R1/blob/main/LICENSE", "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": { "mmlu": "90.8", "mmlu-redux": "92.9", "mmlu-pro": "84.0", "drop": "92.2", "if-eval": "83.3", "gpqa-diamond": "71.5", "simpleqa": "30.1", "frames": "82.5", "alpacaeval2.0": "87.6", "arenahard": "92.3", "livecodebench": "65.9", "codeforces_percentile": "96.3", "codeforces_rating": "2029", "swe_verified": "49.2", "aider-polyglot": "53.3", "aime_2024": "79.8", "math-500": "97.3", "cnmo_2024": "78.8", "cluewsc": "92.8", "c-eval": "91.8", "c-simpleqa": "63.7" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-R1", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.004, "rate_output": 0.004, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" } ], "deepseek 2.5": [ { "name": "deepseek-v2.5-awq", "arch": [ "transformer", "decoder-only", "dense" ], "hosted_api": false, "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-V2.5-AWQ 是 DeepSeek-V2.5 的 AWQ 量化版本。DeepSeek-V2.5 是强大的专家混合(MoE)语言模型,以经济的训练和高效的推理为特点。该模型总共有 236B 参数,每次激活 21B 参数。DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本。" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。有关模型详细信息,请访问 <a href='https://huggingface.co/deepseek-ai/DeepSeek-V2.5' target='_blank'>DeepSeek-V2 Huggingface 页面</a>。</div>" }, "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。", "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL", "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。由于机器学习特性,相同输入可能产生不同输出,请注意甄别。", "benchmark": { "AlpacaEval 2.0": "50.5", "ArenaHard": "76.2", "AlignBench": "8.04", "MT-Bench": "9.02", "HumanEval python": "89", "HumanEval Multi": "73.8", "LiveCodeBench(01-09)": "41.8", "Aider": "72.2", "SWE-verified": "16.8", "DS-FIM-Eval": "78.3", "DS-Arena-Code": "63.1" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V2.5", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "deepseek-v2.5", "arch": [ "transformer", "decoder-only", "dense" ], "hosted_api": false, "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-V2.5 是强大的专家混合(MoE)语言模型,以经济的训练和高效的推理为特点。该模型总共有 236B 参数,每次激活 21B 参数。DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本。" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。有关模型详细信息,请访问 <a href='https://huggingface.co/deepseek-ai/DeepSeek-V2.5' target='_blank'>DeepSeek-V2 Huggingface 页面</a>。</div>" }, "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。", "license": "https://github.com/deepseek-ai/DeepSeek-V2/blob/main/LICENSE-MODEL", "disclaimer": "由于技术特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。由于机器学习特性,相同输入可能产生不同输出,请注意甄别。", "benchmark": { "AlpacaEval 2.0": "50.5", "ArenaHard": "76.2", "AlignBench": "8.04", "MT-Bench": "9.02", "HumanEval python": "89", "HumanEval Multi": "73.8", "LiveCodeBench(01-09)": "41.8", "Aider": "72.2", "SWE-verified": "16.8", "DS-FIM-Eval": "78.3", "DS-Arena-Code": "63.1" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V2.5", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" } ], "deepseek 3": [ { "name": "deepseek-v3", "arch": [ "transformer", "decoder-only", "moe" ], "hosted_api": true, "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "3", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。</div>" }, "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。", "license": "https://choosealicense.com/licenses/mit/", "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": { "bbh": "87.5", "mmlu": "87.1", "mmlu-redux": "86.2", "mmlu-pro": "81.2", "drop": "89.0", "arc-easy": "98.9", "arc-challenge": "95.3", "hellaswag": "88.9", "piqa": "84.7", "winogrande": "84.9", "race-middle": "67.1", "race-high": "51.3", "triviaqa": "82.9", "naturalquestions": "40.0", "agieval": "79.6", "humaneval": "65.2", "mbpp": "75.4", "livecodebench-base": "49.2", "cruxeval-i": "67.3", "cruxeval-o": "69.8", "gsm8k": "89.3", "math": "61.6", "mgsm": "79.8", "cmath": "90.7", "cluewsc": "82.7", "c-eval": "90.1", "cmmlu": "88.8", "cmrc": "76.3", "c3": "78.6", "ccpm": "92.0", "mmmlu-non-english": "79.4", "gpqa": "68.4", "aime": "59.4" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V3-0324", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.008, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "pro-deepseek-v3", "arch": [ "transformer", "decoder-only", "moe" ], "hosted_api": true, "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xxl", "by": "深度求索", "brand": "deepseek", "generation": "3", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><strong>企业专属服务专用模型: <code>pro-deepSeek-v3</code>。</strong>DeepSeek-V3-0324 是一个强大的专家混合(MoE)语言模型,总参数量约为 660B(Huggingface 上为 685 B),每个 Token 激活 37B 参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济训练,并在前代 DeepSeek-V3 的基础上显著提升了性能。</div>" }, "highlights": { "title": "模型亮点", "content": "<div>DeepSeek-V3-0324 在推理能力、前端网页开发、中文写作能力、中文搜索能力及函数调用准确性方面均有显著改进。模型引入了无辅助损失(auxiliary-loss-free)的负载均衡策略,并实现了多 Token 预测(Multi-Token Prediction, MTP) 训练目标。预训练基于 14.8 万亿个多样化 Token,使用 FP8 混合精度训练框架。新增功能包括更高质量的中长篇中文写作、更美观的前端网页设计及更详细的报告分析输出。</div>" }, "note": "此模型的使用受许可协议的约束。请查看提供的链接了解相关协议。", "license": "https://choosealicense.com/licenses/mit/", "disclaimer": "由于 AI 技术的特性,我们无法完全确保通过本服务获得的输出的合法性、真实性、准确性或完整性。请自行判断输出结果,并承担使用内容产生的所有风险。输出不代表专业意见,不应替代法律、医疗或金融等领域专业人员的咨询。", "benchmark": { "bbh": "87.5", "mmlu": "87.1", "mmlu-redux": "86.2", "mmlu-pro": "81.2", "drop": "89.0", "arc-easy": "98.9", "arc-challenge": "95.3", "hellaswag": "88.9", "piqa": "84.7", "winogrande": "84.9", "race-middle": "67.1", "race-high": "51.3", "triviaqa": "82.9", "naturalquestions": "40.0", "agieval": "79.6", "humaneval": "65.2", "mbpp": "75.4", "livecodebench-base": "49.2", "cruxeval-i": "67.3", "cruxeval-o": "69.8", "gsm8k": "89.3", "math": "61.6", "mgsm": "79.8", "cmath": "90.7", "cluewsc": "82.7", "c-eval": "90.1", "cmmlu": "88.8", "cmrc": "76.3", "c3": "78.6", "ccpm": "92.0", "mmmlu-non-english": "79.4", "gpqa": "68.4", "aime": "59.4" }, "benchmark_source": "https://huggingface.co/deepseek-ai/DeepSeek-V3-0324", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.008, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" } ], "fishaudio 1.5": [ { "name": "fish-speech-1.5", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "Hanabi AI", "brand": "fishaudio", "generation": "1.5", "finetunable": false, "id": "mo-dakqc5b6ekc6nvmj", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀", "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!" }, "highlights": { "title": "✨ 新模型亮点", "content": "🎙 fish-speech-1.5 语音大模型:让语音助手更懂您!超高精准度的语音识别与自然流畅的语音生成,支持多语种和方言,完美适配全球场景,您只需轻轻一句,AI 便能回应!" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://spdx.org/licenses/CC-BY-NC-SA-4.0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "gemma 2": [ { "name": "gemma-2-27b-it", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "m", "by": "Google", "brand": "gemma", "generation": "2", "finetunable": false, "hosted_api": true, "id": "mo-c7zkcefa7qwaavzr", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。" }, "highlights": { "title": "模型亮点", "content": "gemma-2-27b-it 是 270 亿参数规模的对话模型,基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。" }, "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://ai.google.dev/gemma/terms", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "75.2 (5-shot, top-1)", "hellaswag": "86.4 (10-shot)", "piqa": "83.2 (0-shot)", "socialiqa": "53.7 (0-shot)", "boolq": "84.8 (0-shot)", "winogrande": "83.7 (partial score)", "arc-e": "88.6 (0-shot)", "arc-c": "71.4 (25-shot)", "triviaqa": "83.7 (5-shot)", "natural questions": "34.5 (5-shot)", "humaneval": "51.8 (pass@1)", "mbpp": "62.6 (3-shot)", "gsm8k": "74.0 (5-shot, maj@1)", "math": "42.3 (4-shot)", "agieval": "55.1 (3-5-shot)", "big-bench": "74.9 (3-shot, CoT)" }, "benchmark_source": "https://huggingface.co/google/gemma-2-27b-it", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "gemma 1": [ { "name": "gemma-7b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "s", "by": "Google", "brand": "gemma", "generation": "1", "finetunable": false, "id": "", "devid": "mo-c7erqymyiqe4ixhw", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。" }, "highlights": { "title": "模型亮点", "content": "Gemma-7B 是 70 亿参数规模的基础模型,除了原生支持的文本生成,也包括问答、摘要和推理等能力,可根据需求微调后适用于更多场景" }, "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://ai.google.dev/gemma/terms", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "64.3(5-shot,top1)", "hellaswag": "81.2(0-shot)", "piqa": "81.2(0-shot)", "socialiqa": "51.8(0-shot)", "boolq": "83.2(0-shot)", "winogrande": "72.3(partial score)", "commonsenseqa": "71.3(7-shot)", "openbookqa": "52.8", "arc-e": "81.5", "arc-c": "53.2", "triviaqa": "63.4(5-shot)", "natualquestions": "23(5-shot)", "humaneval": "32.3(pass@1)", "mbpp": "44.4(3-shot)", "gsm8k": "46.4(maj@1)", "math": "24.3(4-shot)", "agieval": "41.7", "big-bench": "55.1" }, "benchmark_source": "https://huggingface.co/google/gemma-7b", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "gemma 1.1": [ { "name": "gemma-1.1-7b-it", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "s", "by": "Google", "brand": "gemma", "generation": "1.1", "finetunable": false, "hosted_api": false, "id": "", "devid": "mo-c7erqymyiqe4iwts", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Gemma 是谷歌推出的一系列轻量级、尖端的开源模型,它们基于与 Gemini 模型相同的研究和技术构建。Gemma 是支持文本、输入文本输出的 decoder-only 大语言模型,除了英文本身,也支持包括中文的多种语言,并支持基础版本和指令调优的版本。" }, "highlights": { "title": "模型亮点", "content": "<div><p>Gemma-1.1-7B-It 是 70 亿参数规模的对话模型,是在原始的指令调优 Gemma-7b-It 版本的更新。Gemma-1.1 基于 RLHF(强化学习与人类反馈)方法进行了训练,使模型在生成质量、编码能力、事实性、指令遵循和多轮对话质量等多方面上获得了显著提升。在伦理和安全层面,Gemma-1.1 较 Gemma 系列有了一系列的提升,根据 Google 的红帽测试(模拟网络攻击),主要在以下几方面的内容得到了提升:</p><br/><ul><li><strong>文本到文本内容安全</strong>:对涉及安全政策的提示进行人类评估,包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论。</li><li><strong>文本到文本表现性伤害</strong>:与相关的学术数据集进行基准测试,如 WinoBias 和BBQ 数据集。</li><li><strong>记忆能力</strong>:对训练数据的记忆能力进行自动化评估,包括个人可识别信息曝光的风险。</li><li><strong>大规模伤害</strong>:对“危险能力”进行测试,如化学、生物、放射性和核(CBRN)风险。</li></ul></div>" }, "note": "Gemma 系列模型需要申请试用。模型使用受 Google 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://ai.google.dev/gemma/terms", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "64.3(5-shot,top1)", "hellaswag": "81.2(0-shot)", "piqa": "81.2(0-shot)", "socialiqa": "51.8(0-shot)", "boolq": "83.2(0-shot)", "winogrande": "72.3(partial score)", "commonsenseqa": "71.3(7-shot)", "openbookqa": "52.8", "arc-e": "81.5", "arc-c": "53.2", "triviaqa": "63.4(5-shot)", "natualquestions": "23(5-shot)", "humaneval": "32.3(pass@1)", "mbpp": "44.4(3-shot)", "gsm8k": "46.4(maj@1)", "math": "24.3(4-shot)", "agieval": "41.7", "big-bench": "55.1" }, "benchmark_source": "https://huggingface.co/google/gemma-1.1-7b-it", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "glm 4": [ { "name": "glm-4-9b-chat-1m", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "4", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。 除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。" }, "highlights": { "title": "模型亮点", "content": "GLM-4-9B-Chat-1M 支持更大的上下文长度。" }, "note": "此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "alignbench": "7.01", "mt-bench": "8.35", "ifeval": "69.0", "mmlu": "72.4", "c-eval": "75.6", "gsm8k": "79.6", "math": "50.6", "humaneval": "71.8", "natualcodebench": "32.2", "longbench-chat": "7.72" }, "benchmark_source": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat-1m", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "glm-4-9b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "s", "by": "智谱 AI", "brand": "glm", "generation": "4", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "GLM-4-9B-Chat 是智谱 AI 推出的最新一代预训练模型 GLM-4-9B 的人类偏好对齐版本。" }, "highlights": { "title": "模型亮点", "content": "在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B-Chat 表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。" }, "note": "此模型的使用受智谱 AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "alignbench": "7.01", "mt-bench": "8.35", "ifeval": "69.0", "mmlu": "72.4", "c-eval": "75.6", "gsm8k": "79.6", "math": "50.6", "humaneval": "71.8", "natualcodebench": "32.2" }, "benchmark_source": "https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "megrez": [ { "name": "mt-infini-3b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "无问芯穹", "brand": "megrez", "finetunable": false, "id": "", "devid": "mo-c7j6y6xfrkdoobq3", "opensource": false, "shortdesc": { "title": "模型介绍", "content": "mt-infini-3b 由无问芯穹和摩尔线程联合实训,首次实现了在国产 GPU 千卡智算集群上对国产大语言模型的完整训练。该模型基于 Transformer 结构,使用了 1T token 的中英文训练数据集,支持多种语言,在各评测数据集上均有优秀的表现。" }, "highlights": { "title": "模型亮点", "content": "mt-infini-3b 基于摩尔线程夸娥(KUAE)千卡智算集群和和无问芯穹的 AIStudio 完成了完整训练,在推理、微调成本方面具有极大优势,并且克服了其他 3B 模型上频现的指令遗忘问题。该模型支持量化,在端侧运行也具有良好性能表现。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "63", "mmlu": "55.38", "cmmlu": "63" }, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "https://cloud.infini-ai.com/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "megrez-3b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "s", "by": "无问芯穹", "brand": "megrez", "finetunable": false, "id": "mo-c73owqiotql7lozr", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Megrez-3B-Instruct 是由无问芯穹完全自主训练的大语言模型。Megrez-3B-Instruct 旨在通过软硬协同理念,打造一款极速推理、小巧精悍、极易上手的端侧智能解决方案。" }, "highlights": { "title": "模型亮点", "content": "<ol><li><strong>高精度</strong>:Megrez-3B-Instruct 虽然参数规模只有 3B,但通过数据质量的本质提升,成功弥合了模型性能代差,将上一代 14B 模型的能力高度压缩至 3B 大小,在主流榜单上取得了优秀的性能表现。</li><li><strong>高速度</strong>:模型小≠速度快。Megrez-3B-Instruct 通过软硬协同优化,确保了各结构参数与主流硬件高度适配,最大推理速度领先同精度模型 300%。</li><li><strong>简单易用</strong>:模型设计之初我们进行了激烈的讨论:应该在结构设计上留出更多软硬协同的空间(如 ReLU、稀疏化、更精简的结构等),还是使用经典结构便于直接用起来?我们选择了后者,即采用最原始的 LLaMA2 结构,开发者无需任何修改便可将模型部署于各种平台,最小化二次开发复杂度。</li><li><strong>丰富应用</strong>:我们提供了完整的 WebSearch 方案,相比 search_with_lepton,我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,并提供更好的总结效果。用户可以基于该功能构建属于自己的 Kimi 或 Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。</li></ol>" }, "license": "https://www.apache.org/licenses/LICENSE-2.0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "81.4", "cmmlu": "74.5", "mmlu": "70.6", "mmlu-pro": "48.2", "human-eval": "62.2", "mbpp": "77.4", "gsm8k": "64.8", "math": "26.5", "mt-bench": "8.76", "align-bench": "6.91" }, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "https://cloud.infini-ai.com/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "megrez-7b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "无问芯穹", "brand": "megrez", "finetunable": false, "id": "mo-cf6e148312125257", "devid": "mo-c62sghsjvuo7ziyx", "opensource": false, "shortdesc": { "title": "模型介绍", "content": "由无问芯穹公司自主研发的 70 亿参数大语言模型。在逻辑推理、对话能力等方面有优秀的性能表现。配合无问芯穹自研高效推理引擎,同时支持 Nvidia 和 AMD 的 GPU,具备更快的推理速度,在性能表现方面更上一层楼。" }, "highlights": { "title": "模型亮点", "content": "<ul><li><strong>逻辑推理</strong>:在主流的 MMLU、C-Eval、CMMLU 等数据集上,无问天权模型取得了优秀甚至是时任最佳的精度表现。</li><li><strong>对话效果</strong>:我们准备了高质量对话数据来对模型进行指令微调,以优化模型的对话效果。对话数据的生产过程非常严格,包括问题收集、主题去重、模型生成草稿、人工改写、人工二次审核等步骤。我们通过启发式规则(例如字数、格式调整)、模型打分、结果对比等多种手法,清洗出内容更扎实,质量更可靠的答案。针对隐私信息及敏感问题,我们也设计了标准话术进行合理规避。目前对话效果在相同尺寸开源模型中取得了接近最优的效果表现。</li><li><strong>高效推理</strong>:无问芯穹提出了目前市面上最快的大模型推理方案 FlashDecoding++,不仅能带来比之前方法更强的加速能力(可以将 GPU 推理提速 2-4 倍),更重要的是还同时支持 NVIDIA 和 AMD 的 GPU,基于该方案的无问天权模型取得了优秀的推理速度性能。</li></ul>" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "20.5", "mmlu": "58.3", "cmmlu": "59.6" }, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "https://cloud.infini-ai.com/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "jina 2": [ { "name": "jina-embeddings-v2-base-code", "arch": [ "bert" ], "type": "embedding", "size": "s", "by": "Jina AI", "brand": "jina", "generation": "2", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": " jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。" }, "highlights": { "title": "模型亮点", "content": "jina-embeddings-v2-base-code 是一个多语言嵌入模型,支持英语和 30 种常用编程语言,支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域,并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练,但借助 ALiBi 能力,可以扩展至 8000(甚至更长)的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用,尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数,在实现快速且内存高效的推理的同时,依然具有出色的性能。" }, "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.1, "rate_output": 0.1, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "jina-embeddings-v2-base-zh", "arch": [ "bert" ], "type": "embedding", "size": "s", "by": "Jina AI", "brand": "jina", "generation": "2", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": " jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。" }, "highlights": { "title": "模型亮点", "content": "jina-embeddings-v2-base-zh 是支持中英双语的文本向量模型,支持长达 8192 字符的文本编码。该模型的研发基于 BERT 架构(JinaBERT),JinaBERT 是在 BERT 架构基础上的改进,首次将 ALiBi 应用到编码器架构中以支持更长的序列。 不同于以往的单语言/多语言向量模型,该模型设计双语模型来更好的支持单语言(中搜中)以及跨语言(中搜英)文档检索。" }, "note": "此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.1, "rate_output": 0.1, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "llama 2": [ { "name": "llama-2-7b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "Meta", "brand": "llama", "generation": "2", "finetunable": true, "id": "mo-f9c5988312125272", "devid": "mo-c63wjvurlsj5rxzs", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。" }, "highlights": { "title": "模型亮点", "content": "lama2-7b-chat 是其中 70 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。" }, "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama2/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "code": "16.8", "commonsense_reasoning": "63.9", "world_knowledge": "48.9", "math": "14.6", "mmlu": "45.3", "bbh": "32.6", "agieval": "29.3" }, "benchmark_source": "https://huggingface.co/meta-llama/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-2-13b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "m", "by": "Meta", "brand": "llama", "generation": "2", "finetunable": false, "id": "mo-be183b8312125274", "devid": "mo-c63wjvurlvhvrdgk", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。" }, "highlights": { "title": "模型亮点", "content": "Llama2-13b-chat 是其中 130 亿的主流参数大小的模型,适用于 chat 场景,更擅长英文相关的内容。" }, "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama2/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "code": "16.8", "commonsense_reasoning": "63.9", "world_knowledge": "48.9", "math": "14.6", "mmlu": "45.3", "bbh": "32.6", "agieval": "29.3" }, "benchmark_source": "https://huggingface.co/meta-llama/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-2-70b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xl", "by": "Meta", "brand": "llama", "generation": "2", "finetunable": false, "id": "mo-39240e8312125275", "devid": "mo-c63wjvurlvlsramn", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。" }, "highlights": { "title": "模型亮点", "content": "Llama2-70b-chat 是其中 700 亿参数的大模型,适用于 chat 场景,更擅长英文相关的内容,相较该系列里其他规模的模型,有更强的综合能力。" }, "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama2/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "code": "37.5", "commonsense_reasoning": "71.9", "world_knowledge": "63.6", "math": "35.2", "mmlu": "68.9", "bbh": "51.2", "agieval": "54.2" }, "benchmark_source": "https://huggingface.co/meta-llama/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-2-70b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "xl", "by": "Meta", "brand": "llama", "generation": "2", "finetunable": false, "id": "mo-8babe28312125277", "devid": "mo-c63wjvurlxt3bbrt", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama2 是由 Meta 开发并开源的大型语言模型(LLM)系列,这是一组从 70 亿到 700 亿参数不同规模、经过预训练和微调的生成式文本模型。架构层面,LLama2 是一个使用优化型转换器架构的自动回归语言模型。调整后的版本使用有监督的微调(SFT)和带有人类反馈的强化学习(RLHF)以对齐人类对有用性和安全性的偏好。Llama2 较 Llama 系列在多种学术数据集上有着更加不俗的表现,为大量其他模型提供了设计和开发的思路。" }, "highlights": { "title": "模型亮点", "content": "Llama2-70b-base 是其中 700 亿参数的基础大模型,适用于通用语言任务场景,更擅长英文相关的内容,相较该系列里其他规模的模型,有更强的综合能力。" }, "note": "此模型的使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama2/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "code": "37.5", "commonsense_reasoning": "71.9", "world_knowledge": "63.6", "math": "35.2", "mmlu": "68.9", "bbh": "51.2", "agieval": "54.2" }, "benchmark_source": "https://huggingface.co/meta-llama/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "llama 3": [ { "name": "llama-3-8b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "s", "by": "Meta", "brand": "llama", "generation": "3", "finetunable": false, "id": "mo-c7dy2jmzae57pbfw", "devid": "mo-c7dy2jmzae57pbfw", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。" }, "highlights": { "title": "模型亮点", "content": "Llama3-8b-Instruct 是此系列里 80 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-8b-Instruct 模型的数据的知识截止日期为 2023 年 3 月。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama3/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "68.4(5-shot)", "gpqa": "34.2(0-shot)", "humaneval": "62.2(0-shot)", "gsm8k": "79.6(8-shot,cot)", "math": "30(4-shot,cot)" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-3-infini-8b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "s", "by": "Meta", "brand": "llama", "generation": "3", "finetunable": false, "id": "mo-c7ejvabztyikgczl", "devid": "mo-c7ejvabztyikgczl", "mustApplyForTrial": true, "opensource": false, "shortdesc": { "title": "模型介绍", "content": "Llama3-Infini-8B-Instruct 是无问芯穹推出的 Llama3-8b-Instruct 中文增强版本,旨在更好地服务中文语言环境的需求。" }, "highlights": { "title": "模型亮点", "content": "为了更好地服务中文语言环境的需求,我们首先对原有的 Llama3-8b-base 模型进行了继续训练,数据精选自多种高质量中文资源,包括百科全书、书籍、互联网通用语料,以及代码、数学和逻辑推理等领域,确保模型训练的全面性和深度。值得一提的是,为了增强模型的指令跟随能力,我们特别加入了大量的对话和指令类型数据。继续训练完成后,我们进一步使用了高质量对话数据进行特定的微调,最终形成了一款专门针对中文优化的对话模型。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama3/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "68.4(5-shot)", "gpqa": "34.2(0-shot)", "humaneval": "62.2(0-shot)", "gsm8k": "79.6(8-shot,cot)", "math": "30(4-shot,cot)" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-3-70b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xl", "by": "Meta", "brand": "llama", "generation": "3", "finetunable": false, "id": "mo-c7dy2l34tc6hi55j", "devid": "mo-c7dy2l34tc6hi55j", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Llama3 系列是由 Meta 开发的 Llama 系列全新的第三代版本,包含一系列预训练和指令调优的文本生成式模型。Llama3 基于优化后的 Transformer 架构,预训练过程中使用了超过 15T tokens 的数据,调优后的模型使用 SFT 和 RLHF,以更好地贴合人类对可用性和安全性的偏好。" }, "highlights": { "title": "模型亮点", "content": "Llama3-70b-Instruct 是此系列里 700 亿参数的指令调优的模型,针对对话场景用例进行了优化,并在常见的行业基准测试中超越了许多可用的开源聊天模型。Llama3-70b-Instruct 模型的数据的知识截止日期为 2023 年 12 月。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://llama.meta.com/llama3/license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "82(5-shot)", "gpqa": "39.5(0-shot)", "humaneval": "81.7(0-shot)", "gsm8k": "93(8-shot,cot)", "math": "50.4(4-shot,cot)" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "llama 3.1": [ { "name": "llama-3.1-8b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "Meta", "brand": "llama", "generation": "3.1", "finetunable": false, "id": "mo-c7ssfghndw7j4sjs", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。" }, "highlights": { "title": "模型亮点", "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "MMLU": "69.4", "MMLU (CoT)": "73.0", "MMLU-Pro (CoT)": "48.3", "IFEval": "80.4", "ARC-C": "83.4", "GPQA": "30.4", "HumanEval": "72.6", "MBPP ++ base version": "72.8", "Multipl-E HumanEval": "50.8", "Multipl-E MBPP": "52.4", "GSM-8K (CoT)": "84.5", "MATH (CoT)": "51.9", "API-Bank": "82.6", "BFCL": "76.1", "Gorilla Benchmark API Bench": "8.2", "Nexus (0-shot)": "38.5", "Multilingual MGSM (CoT)": "68.9" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-3.1-70b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "xl", "by": "Meta", "brand": "llama", "generation": "3.1", "finetunable": false, "id": "mo-c7ssfpkkbefi7fni", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。" }, "highlights": { "title": "模型亮点", "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "MMLU": "83.6", "MMLU (CoT)": "86.0", "MMLU-Pro (CoT)": "66.4", "IFEval": "87.5", "ARC-C": "94.8", "GPQA": "41.7", "HumanEval": "80.5", "MBPP ++ base version": "86.0", "Multipl-E HumanEval": "65.5", "Multipl-E MBPP": "62.0", "GSM-8K (CoT)": "95.1", "MATH (CoT)": "68.0", "API-Bank": "90.0", "BFCL": "84.8", "Gorilla Benchmark API Bench": "29.7", "Nexus (0-shot)": "56.7", "Multilingual MGSM (CoT)": "86.9" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "llama-3.1-405b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xxl", "by": "Meta", "brand": "llama", "generation": "3.1", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Meta 发布的 LLaMA 3.1 多语言大规模语言模型(LLMs)包含预训练和指令微调生成模型,提供 8B、70B 和 405B 三种规模(文本输入/文本输出)。该模型使用 15T 的数据进行训练,知识更新截止于 2023 年 12 月。" }, "highlights": { "title": "模型亮点", "content": "LLaMA 3.1 的指令微调文本模型(8B、70B、405B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。LLaMA 3.1 405B 的性能可与最佳的闭源模型媲美。这个模型将使开源社区能够解锁新的能力,例如合成数据生成和模型蒸馏。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-405B/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "MMLU": "87.3", "MMLU (CoT)": "88.6", "MMLU-Pro (CoT)": "73.3", "IFEval": "88.6", "ARC-C": "96.9", "GPQA": "50.7", "HumanEval": "89.0", "MBPP ++ base version": "88.6", "Multipl-E HumanEval": "75.2", "Multipl-E MBPP": "65.7", "GSM-8K (CoT)": "96.8", "MATH (CoT)": "73.8", "API-Bank": "92.0", "BFCL": "88.5", "Gorilla Benchmark API Bench": "35.3", "Nexus (0-shot)": "58.7", "Multilingual MGSM (CoT)": "91.6" }, "benchmark_source": "https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "llama 3.3": [ { "name": "llama-3.3-70b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "xl", "by": "Meta", "brand": "llama", "generation": "3.3", "finetunable": false, "id": "mo-dahxyr6ryarbruqd", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Meta 发布的 LLaMA 3.3 多语言大规模语言模型(LLMs)是一个经过预训练和指令微调的生成模型,提供 70B 规模(文本输入/文本输出)。该模型使用超过 15T 的数据进行训练,支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,知识更新截止于 2023 年 12 月。" }, "highlights": { "title": "模型亮点", "content": "LLaMA 3.3 的指令微调文本模型(70B)专为多语言对话场景优化,并在许多常见行业基准测试中表现优于现有的开源和闭源聊天模型。" }, "note": "LLaMA3 系列模型需要申请试用。模型使用受 Meta 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/meta-llama/Meta-Llama-3.1-70B/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "MMLU": "83.6", "MMLU (CoT)": "86.0", "MMLU-Pro (CoT)": "68.9", "IFEval": "92.1", "ARC-C": "94.8", "GPQA": "50.5", "HumanEval": "88.4", "MBPP ++ base version": "87.6", "Multipl-E HumanEval": "65.5", "Multipl-E MBPP": "62.0", "GSM-8K (CoT)": "95.1", "MATH (CoT)": "77.0", "API-Bank": "90.0", "BFCL": "77.3", "Gorilla Benchmark API Bench": "29.7", "Nexus (0-shot)": "56.7", "Multilingual MGSM (CoT)": "91.1" }, "benchmark_source": "https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct/blob/main/LICENSE", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "qwen 2.5": [ { "name": "qwen2.5-7b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-c73jn4a64oewfiic", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>指令调优的 7B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:查询为 28,键值为 4</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu-pro": "56.3", "mmlu-redux": "75.4", "gpqa": "36.4", "math": "75.5", "gsm8k": "91.6", "humaneval": "84.8", "mbpp": "79.2", "multipl-e": "70.4", "livecodebench": "28.7", "livebench-0831": "35.9", "ifeval-strict-prompt": "71.2", "arena-hard": "52.0", "alignbench-v1.1": "7.33", "mtbench": "8.75" }, "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.0016, "rate_output": 0.0016, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-coder-7b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-c76v42mk3zgsieqi", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>Qwen2.5-Coder-7B-Instruct 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:Q 为 28,KV 为 4</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "humaneval": "88.4", "mbpp": "83.5", "evalplus": "81.9", "multipl-e": "76.5", "mceval": "60.3", "livecodebench": "35.9", "cruxeval": "65.9", "bigcodebench": "29.6", "aider": "57.1", "spider": "82.0", "bird-sql": "51.1", "codearena": "43.1" }, "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "qwen2.5-coder-7b", "type": "text", "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>Qwen2.5-Coder-7B 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:76.1 亿</li><li><strong>非嵌入参数数量</strong>:65.3 亿</li><li><strong>层数</strong>:28</li><li><strong>注意力头数 (GQA)</strong>:Q 为 28,KV 为 4</li></ul></div>" }, "note": "不建议在对话中使用 Base 模型。您可以对 Base 模型进行后续训练,例如有监督微调(SFT)、基于人类反馈的强化学习(RLHF)、持续预训练等,或者在该模型上进行中间任务训练。此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "humaneval": "61.6", "mbpp": "68.8", "multipl-e": "57.5", "cruxeval": "56.0", "bigcodebench": "31.0", "fill-in-the-middle": "86.2", "gsm8k": "83.9", "math": "46.6", "mmlu": "68.0", "arc-challenge": "60.9" }, "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "qwen2.5-vl-7b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2.5-VL 系列模型提升了模型的智能水平、实用性和适用性,使其在自然对话、内容创作、专业知识服务及代码开发等场景中表现更优。" }, "highlights": { "title": "模型亮点", "content": "<div>Qwen2.5-VL 在文档和图表理解方面具有显著优势,并且无需针对特定任务进行微调即可作为视觉代理执行任务。<ul><li><strong>大规模参数与数据</strong>:参数规模显著扩大,基于更庞大的训练数据集,大幅提升了模型的性能和泛化能力。</li><li><strong>多语言支持</strong>:支持超过99种语言,具备强大的跨语言理解和生成能力,尤其在中文、英文及常见语种上的表现更为突出。</li><li><strong>对话理解强化</strong>:优化了对复杂对话场景的理解能力,能准确捕捉上下文信息和用户意图,提供更自然、连贯的交互体验。</li><li><strong>代码写作能力</strong>:深度优化了代码生成和理解能力,支持多种编程语言,并可在对话中解释代码逻辑或撰写高质量代码片段。</li><li><strong>多模态处理</strong>:融合了图像、文本等多种信息处理能力,初步实现了跨模态的分析与生成功能,增强场景化应用潜力。</li><li><strong>人机协作与定制</strong>:支持指令(Instruction)微调和基于用户反馈的实时优化,可快速适配个性化需求及业务场景。</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-14b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "m", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-c73jpcrezry3lqvx", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>指令调优的 14B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:147 亿</li><li><strong>非嵌入参数数量</strong>:131 亿</li><li><strong>层数</strong>:48 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu-pro": "63.7", "mmlu-redux": "80.0", "gpqa": "45.5", "math": "80.0", "gsm8k": "94.8", "humaneval": "83.5", "mbpp": "82.0", "multipl-e": "72.8", "livecodebench": "42.6", "livebench-0831": "44.4", "ifeval-strict-prompt": "81.0", "arena-hard": "68.3", "alignbench-v1.1": "7.94", "mtbench": "8.88" }, "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.0035, "rate_output": 0.0035, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-coder-14b", "type": "text", "hosted_api": false, "size": "m", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>Qwen2.5-Coder-14B 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:147 亿</li><li><strong>非嵌入参数数量</strong>:131 亿</li><li><strong>层数</strong>:48</li><li><strong>注意力头数 (GQA)</strong>:Q 为 40,KV 为 8</li></ul></div>" }, "note": "不建议在对话中使用 Base 模型。您可以对 Base 模型进行后续训练,例如有监督微调(SFT)、基于人类反馈的强化学习(RLHF)、持续预训练等,或者在该模型上进行中间任务训练。此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "humaneval": "64.0", "mbpp": "71.4", "multipl-e": "59.9", "cruxeval": "66.4", "bigcodebench": "37.0", "fill-in-the-middle": "87.7", "gsm8k": "88.7", "math": "52.8", "mmlu": "75.2", "arc-challenge": "66.0" }, "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "qwen2.5-32b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>指令调优的 32B Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu-pro": "69.0", "mmlu-redux": "83.9", "gpqa": "49.5", "math": "83.1", "gsm8k": "95.9", "humaneval": "88.4", "mbpp": "84.0", "multipl-e": "75.4", "livecodebench": "51.2", "livebench-0831": "50.7", "ifeval-strict-prompt": "79.5", "arena-hard": "74.5", "alignbench-v1.1": "7.93", "mtbench": "9.20" }, "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.0049, "rate_output": 0.0049, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-coder-32b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-c76v42mk3zgsieqi", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5-Coder 是最新的代码专用 Qwen 大型语言模型系列。Qwen2.5-Coder 在 CodeQwen1.5 的基础上带来了以下改进:</p><ul><li>显著提升代码生成、代码推理和代码修复能力。</li><li>支持真实世界应用,例如代码代理,增强编码能力和数学及一般能力。</li><li>支持长上下文处理。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>Qwen2.5-Coder-Instruct 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:带有 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64</li><li><strong>注意力头数 (GQA)</strong>:Q 28,KV 为 4</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file#license-agreement", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "humaneval": "92.7", "mbpp": "90.2", "evalplus": "86.3", "multipl-e": "79.4", "mceval": "65.9", "livecodebench": "31.4", "cruxeval": "83.4", "bigcodebench": "38.3", "aider": "73.7", "spider": "85.1", "bird-sql": "58.4", "codearena": "68.9" }, "benchmark_source": "https://qwenlm.github.io/blog/qwen2.5-coder-family/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "qwen2.5-vl-32b-instruct", "arch": [ "transformer", "vision-language", "multi-modal" ], "type": "text", "tags": [ "text-generation", "conversational", "image-analysis", "video-understanding", "visual-agent" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2.5-VL-32B-Instruct 是 Qwen 家族中的一款强大的视觉-语言模型,专为自然对话、内容创作和多模态任务设计。通过大规模训练数据和强化学习的优化,它在数学、逻辑推理、文档理解、视频理解和视觉代理任务中表现出色,在多个基准测试中展现了强大的竞争力。" }, "highlights": { "title": "模型亮点", "content": "<div>Qwen2.5-VL-32B-Instruct 在视觉-语言能力上实现了显著提升,无需特定任务微调即可作为多功能视觉代理。<ul><li><strong>视觉理解</strong>:擅长分析图像中的文本、图表、图标和布局,同时能识别常见物体。</li><li><strong>视觉代理能力</strong>:可作为计算机和手机使用的代理,具备动态推理和工具指挥能力。</li><li><strong>长视频理解</strong>:能够理解超过1小时的视频,并精确定位相关事件片段。</li><li><strong>视觉定位</strong>:通过生成边界框或点精确定位图像中的物体,并提供稳定的 JSON 输出。</li><li><strong>结构化输出</strong>:支持从发票、表单和表格中生成结构化数据,适用于金融和商业场景。</li><li><strong>数学与推理提升</strong>:通过强化学习增强了问题解决能力,提供更详细、清晰的回答。</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0058, "rate_output": 0.058, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwq-32b-preview", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-dag25yzdjt2vhbfd", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "QwQ-32B-Preview 是由 Qwen 团队开发的一款实验性研究模型,专注于提升 AI 的推理能力。" }, "highlights": { "title": "模型亮点", "content": "<div><p>32.5B 因果语言模型的规格如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul>该模型为预览版本,虽然已经展现了相当有潜力的分析功能,但仍存在<a href='https://huggingface.co/Qwen/QwQ-32B-Preview'>若干限制</a>。</div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwq-32b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-davcljvn4fpnapdr", "devid": "", "mustApplyForTrial": false, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "QwQ 是 Qwen 系列的推理模型,相比传统指令调优模型,QwQ 具备思考和推理能力,在下游任务尤其是难题上能取得显著性能提升。QwQ-32B 是一款中等规模的推理模型,其性能可与最先进的推理模型相媲美,例如 DeepSeek-R1 和 o1-mini。" }, "highlights": { "title": "模型亮点", "content": "<div><p>32.5B 因果语言模型的规格如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练(预训练 & 后训练(监督微调和强化学习))</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:325 亿</li><li><strong>非嵌入参数数量</strong>:310 亿</li><li><strong>层数</strong>:64 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 40,键值 (KV) 为 8</li></ul></div>" }, "note": "使用建议:1. 使用 Temperature=0.6 和 TopP=0.95,而不是贪婪解码(Greedy decoding),以避免无限重复。2. 使用 TopK 值在 20 到 40 之间,以过滤掉稀有 token 的出现,同时保持生成输出的多样性。3. 对于数学问题,建议在提示词中包含类似这样的指令:'请逐步推理,并将最终答案放在\\boxed{}中。' 4. 对于多选题,建议在提示词中加入以下 JSON 结构以标准化响应:'请在答案字段中仅显示选项字母,例如 \"answer\": \"C\"'。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qvq-72b-preview", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-dakqco2j5kcz6fr5", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "🚀 重磅预告!全新音频/视频/多模型模型即将震撼来袭! 🚀", "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!" }, "highlights": { "title": "✨ 新模型亮点", "content": "🌐 QVQ-72B-Preview 多模态大模型打破传统文本、图像、语音的界限,跨越模态壁垒,让AI在不同领域间自如切换,呈现多维度的智慧理解。一套系统,全面覆盖各种互动需求。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/Qwen/QVQ-72B-Preview/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-72b-instruct", "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "mo-c73knlqigltjgtjq", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "<div><p>Qwen2.5 是 Qwen 大型语言模型系列的最新成果。Qwen2.5 发布了从 0.5 到 720 亿参数不等的基础语言模型及指令调优语言模型。Qwen2.5 相比 Qwen2 带来了以下改进:</p><ul><li>显著增加知识量,在编程与数学领域的能力得到极大提升。</li><li>在遵循指令、生成长文本、理解结构化数据 (例如,表格) 以及生成结构化输出特别是 JSON 方面有显著提升。对系统提示的多样性更具韧性,增强了聊天机器人中的角色扮演实现和条件设定。</li><li>支持长上下文处理。</li><li>支持超过 29 种语言的多语言功能,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。</li></ul></div>" }, "highlights": { "title": "模型亮点", "content": "<div><p>指令调优的 720 亿参数 Qwen2.5 模型特点如下:</p><ul><li><strong>类型</strong>:因果语言模型</li><li><strong>训练阶段</strong>:预训练与后训练</li><li><strong>架构</strong>:采用 RoPE、SwiGLU、RMSNorm 及 Attention QKV 偏置的 transformers</li><li><strong>参数数量</strong>:727 亿</li><li><strong>非嵌入参数数量</strong>:700 亿</li><li><strong>层数</strong>:80 层</li><li><strong>注意力头数 (GQA)</strong>:查询 (Q) 为 64,键值 (KV) 为 8</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu-pro": "71.1", "mmlu-redux": "86.8", "gpqa": "49.0", "math": "83.1", "gsm8k": "95.8", "humaneval": "86.6", "mbpp": "88.2", "multipl-e": "75.1", "livecodebench": "55.5", "livebench-0831": "52.3", "ifeval-strict-prompt": "84.1", "arena-hard": "81.2", "alignbench-v1.1": "8.16", "mtbench": "9.35" }, "benchmark_source": "https://qwenlm.github.io/zh/blog/qwen2.5-llm/", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2.5-vl-72b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "2.5", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2.5-VL 系列模型提升了模型的智能水平、实用性和适用性,使其在自然对话、内容创作、专业知识服务及代码开发等场景中表现更优。旗舰模型 Qwen2.5-VL-72B-Instruct 在涵盖多个领域和任务的基准测试中展现出强大的竞争力,包括大学水平的问题解答、数学、文档理解、通用问答、视频理解以及视觉代理任务等。" }, "highlights": { "title": "模型亮点", "content": "<div>Qwen2.5-VL 在文档和图表理解方面具有显著优势,并且无需针对特定任务进行微调即可作为视觉代理执行任务。<ul><li><strong>大规模参数与数据</strong>:参数规模显著扩大,基于更庞大的训练数据集,大幅提升了模型的性能和泛化能力。</li><li><strong>多语言支持</strong>:支持超过99种语言,具备强大的跨语言理解和生成能力,尤其在中文、英文及常见语种上的表现更为突出。</li><li><strong>对话理解强化</strong>:优化了对复杂对话场景的理解能力,能准确捕捉上下文信息和用户意图,提供更自然、连贯的交互体验。</li><li><strong>代码写作能力</strong>:深度优化了代码生成和理解能力,支持多种编程语言,并可在对话中解释代码逻辑或撰写高质量代码片段。</li><li><strong>多模态处理</strong>:融合了图像、文本等多种信息处理能力,初步实现了跨模态的分析与生成功能,增强场景化应用潜力。</li><li><strong>人机协作与定制</strong>:支持指令(Instruction)微调和基于用户反馈的实时优化,可快速适配个性化需求及业务场景。</li></ul></div>" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.01, "rate_output": 0.01, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "qwen 1": [ { "name": "qwen-7b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "1", "finetunable": false, "id": "mo-b6999a8312125258", "devid": "mo-c62sglv2yvgm2xe3", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "通义千问-7B-chat(Qwen-7B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 70 亿参数规模的大语言模型。相较于 Qwen-7B-Base 模型,Qwen-7B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。" }, "highlights": { "title": "模型亮点", "content": "" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "59.7(0-shot), 59.3(5-shot)", "humaneval": "37.2", "mmlu": "55.8(0-shot), 57(5-shot)", "gsm8k": "50.3(0-shot), 54.1(8-shot)" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen-14b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "m", "by": "阿里云", "brand": "qwen", "generation": "1", "finetunable": false, "id": "mo-531d778312125259", "devid": "mo-c62sgmhhlo2ylge3", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "通义千问-14B-chat(Qwen-14B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 140 亿参数规模的大语言模型。相较于 Qwen-14B-Base 模型,Qwen-14B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。" }, "highlights": { "title": "模型亮点", "content": "" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "69.8(0-shot), 71.7(5-shot)", "humaneval": "43.9", "mmlu": "64.6(0-shot), 66.5(5-shot)", "gsm8k": "60.1(0-shot), 59.3(8-shot)" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-14B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen-72b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "1", "finetunable": false, "id": "mo-3ee2f58312125261", "devid": "mo-c62sgmy6bg6fqdlj", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "通义千问-72B-chat(Qwen-72B-chat)是阿里云研发的基于 Transformer,在超大规模的预训练数据上进行训练得到的 720 亿参数规模的大语言模型。" }, "highlights": { "title": "模型亮点", "content": "相较于 Qwen-72B-Base 模型,Qwen-72B-chat 是针对于对话场景以及一些常见的智能对话需求指令对齐的 AI 助手模型,在更多文本相关的问答场景上有更好的指令跟随能力。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "c-eval": "80.1(0-shot), 82.9(5-shot)", "humaneval": "64.6", "mmlu": "74.3(0-shot), 75(5-shot)", "gsm8k": "76.4(0-shot), 75.7(8-shot)" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-72B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen-72b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "1", "finetunable": false, "id": "mo-d4f7f48312125262", "devid": "mo-c62sgnhscode5rws", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的 720 亿参数规模的模型。" }, "highlights": { "title": "模型亮点", "content": "Qwen-72B 是基于 Transformer 的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/QwenLM/Qwen/blob/main/Tongyi%20Qianwen%20LICENSE%20AGREEMENT", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "77.4(5-shot)", "c-eval": "83.3(5-shot)", "gsm8k": "78.9(8-shot)", "math": "35.2(4-shot)", "humaneval": "35.4(0-shot)", "mbpp": "52.2(3-shot)", "bbh": "67.7(3-shot)", "agieval": "62.5(0-shot)", "gaokao": "87.6(0-shot)", "cmmlu": "83.6(5-shot)" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen-72B/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "qwen 1.5": [ { "name": "qwen1.5-4b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": false, "id": "mo-c72iptkwfaocwosx", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "56.1", "c-eval": "67.6", "gsm8k": "57.0", "math": "10.0", "humaneval": "25.6", "mbpp": "29.2", "bbh": "32.5", "cmmlu": "66.7" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-4B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-7b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": true, "id": "mo-20b4d98312125281", "devid": "mo-c63wjvurl2trrdo5", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-7b-chat 是其中专用于 chat 场景的 70 亿参数的主流大小模型。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "61", "c-eval": "74.1", "gsm8k": "62.5", "math": "20.3", "humaneval": "36", "mbpp": "37.4", "bbh": "40.2", "cmmlu": "73.1" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-7B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-7b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升。" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-7b 是其中 70 亿参数的基础模型,适合根据具体应用场景目标进行微调后适配。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "61", "c-eval": "74.1", "gsm8k": "62.5", "math": "20.3", "humaneval": "36", "mbpp": "37.4", "bbh": "40.2", "cmmlu": "73.1" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-7B/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-14b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "m", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": true, "id": "mo-e6eb638312125282", "devid": "mo-c63wjvurl2znb2ng", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-14b-chat 是其中专用于 chat 场景的 140 亿参数的主流大小模型。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "67.6", "c-eval": "78.7", "gsm8k": "70.1", "math": "29.2", "humaneval": "37.8", "mbpp": "44", "bbh": "53.7", "cmmlu": "77.6" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-14B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.0035, "rate_output": 0.0035, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-32b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": false, "id": "", "devid": "mo-c7erqymygsueipbs", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-32b-chat 是其中专用于 chat 场景的 320 亿参数的大模型,较于 14b 模型在智能体场景更强,较于 72b 模型推理成本更低。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "73.4", "c-eval": "83.5", "gsm8k": "77.4", "math": "36.1", "humaneval": "73.2", "mbpp": "49.4", "bbh": "66.8", "cmmlu": "82.3" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-32B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-72b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": false, "id": "mo-6d49138312125284", "devid": "mo-c63wjvurl4apa5wl", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-72b-chat 是其中专用于 chat 场景的 720 亿参数的大模型。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "77.5", "c-eval": "84.1", "gsm8k": "79.5", "math": "34.1", "humaneval": "41.5", "mbpp": "53.4", "bbh": "65.5", "cmmlu": "83.5" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-72B-Chat/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen1.5-72b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "1.5", "finetunable": false, "id": "mo-b3ef7a8312125285", "devid": "mo-c63wjvurl4gkqobd", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen1.5 系列是 Qwen2 的 Beta 版本,是一个基于 Transformer 的仅解码语言模型,在海量数据上进行预训练。与之前发布的 Qwen 系列版本相比,Qwen1.5 系列 base 与 chat 模型均能支持多种语言,在整体聊天和基础能力上都得到了提升" }, "highlights": { "title": "模型亮点", "content": "Qwen1.5-72b-base 是其中的 720 亿参数的基础大模型,适合多种场景的使用。" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "77.5", "c-eval": "84.1", "gsm8k": "79.5", "math": "34.1", "humaneval": "41.5", "mbpp": "53.4", "bbh": "65.5", "cmmlu": "83.5" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen1.5-72B/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "qwen 2": [ { "name": "qwen2-7b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "70.5", "gpqa": "25.3", "humaneval": "79.9", "mbpp": "67.2", "gsm8k": "82.3", "math": "49.6", "c-eval": "77.2" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-7B-Instruct/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": 0.0016, "rate_output": 0.0016, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2-7b", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2", "finetunable": true, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/qwen/Qwen2-7B/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "70.3", "gpqa": "31.8", "humaneval": "51.2", "mbpp": "65.9", "gsm8k": "79.9", "math": "44.2", "c-eval": "83.2", "cmmlu": "83.9" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-7B/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2-vl-7b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "s", "by": "阿里云", "brand": "qwen", "generation": "2", "finetunable": false, "id": "mo-dakk73u6yeqhnn2g", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀", "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!" }, "highlights": { "title": "✨ 新模型亮点", "content": "🌐 Qwen2-VL 多模态大模型打破传统文本、图像、语音的界限,跨越模态壁垒,让AI在不同领域间自如切换,呈现多维度的智慧理解。一套系统,全面覆盖各种互动需求。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://choosealicense.com/licenses/apache-2.0/", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.002, "rate_output": 0.002, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2-57b-a14b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "l", "by": "阿里云", "brand": "qwen", "generation": "2", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/qwen/Qwen2-57B-A14B-Instruct/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "75.4", "gpqa": "34,3", "humaneval": "79.9", "mbpp": "70.9", "gsm8k": "79.6", "math": "49.1", "c-eval": "80.5" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-57B-A14B-Instruct/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.001, "rate_output": 0.001, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" }, { "name": "qwen2-72b-instruct", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "xl", "by": "阿里云", "brand": "qwen", "generation": "2", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构,并采用 SwiGLU 激活函数、注意力 QKV 偏置(attention QKV bias)、群组查询注意力(group query attention)、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。此外,Qwen 团队还改进了适应多种自然语言和代码的分词器。" }, "note": "此模型的使用受许可协议的约束。请在下方查看相关的协议内容。", "license": "https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/file/view/master?fileName=LICENSE&status=0", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "82.3", "gpqa": "42.4", "humaneval": "86.0", "mbpp": "52.2", "gsm8k": "91.1", "math": "59.7", "c-eval": "83.8" }, "benchmark_source": "https://modelscope.cn/models/qwen/Qwen2-72B-Instruct/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.005, "rate_output": 0.005, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "stable diffusion": [ { "name": "stable-diffusion-1.5", "arch": [ "transformer", "latent diffusion" ], "type": "image", "hosted_api": false, "size": "s", "by": "Runway ML", "brand": "stable diffusion", "finetunable": false, "id": "", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Stable Diffusion 是一种扩散式文本到图像生成模型,该模型使用 CLIP ViT-L/14 作为固定预训练文本编码器,能够根据任何文本输入生成照片级逼真的图像。" }, "highlights": { "title": "模型亮点", "content": "<ul><li><strong>基于 v1.2 的权重初始化</strong>:v1.5 检查点基于 v1.2 权重初始化,并在 595k 步上进行了微调。</li><li><strong>高分辨率支持</strong>:在 512x512 分辨率下进行训练,提升了图像细节和质量。</li><li><strong>改进的无分类指导采样</strong>:通过 10% 的文本条件丢弃优化了无分类指导采样。</li></ul>" }, "note": "使用此模型需遵循 Stability AI 许可协议。请查看相关的协议内容。", "license": "https://huggingface.co/spaces/CompVis/stable-diffusion-license", "disclaimer": "由于技术特性,平台无法完全保证您通过本服务获得的输出的合法性、真实性、准确性及完整性。您应对本服务中的输出自行判断,并承担使用内容引起的所有风险。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答疑问。相关观点仅限于算法所触达有限数据呈现的结果,并不代表平台立场。由于机器学习特性,相同的输入可能产生不同的输出结果,请注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudio API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n> - 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。\n\n" }, { "name": "stable-diffusion-xl", "arch": [ "transformer", "decoder-only", "dense" ], "type": "image", "hosted_api": false, "size": "s", "by": "Stability AI", "brand": "stable diffusion", "finetunable": false, "id": "mo-c7rx2f3xpbrpoimz", "devid": "", "mustApplyForTrial": true, "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Stable Diffusion XL 是由 Stability AI 研发并开源的文生图大模型,创意图像生成能力行业领先。指令理解能力强,支持反向 Prompt 定义不希望生成的内容。SDXL 相比于v1.5 做了重大的改进,并且与当前为开源的文生图 SOTA 模型(midjorney)效果相当,具体改进之处包括: 更大的 unet backbone(是之前的3倍); 增加了 refinement 模块用于改善生成图片的质量;更高效的训练技巧等。" }, "highlights": { "title": "模型亮点", "content": "<ul><li><strong>更快的生成速度</strong>:SDXL 通过优化算法和模型结构,显著提高了图像生成的速度。相较于原版 Stable Diffusion,SDXL 能够在更短的时间内生成高质量的图像,大大提高了工作效率。</li><li><strong>更高的图像质量</strong>:SDXL 采用了更大规模的训练数据和更先进的模型结构,使得生成的图像更加真实、细腻。同时,SDXL 还引入了多种新技术,如对抗性训练、感知损失函数等,进一步提升了图像质量。</li><li><strong>更强的可扩展性</strong>:SDXL 的设计使得其具有良好的可扩展性,可以方便地与其他模型和技术进行集成,从而满足更多复杂的应用需求。</li></ul>" }, "note": "SD 系列模型需要申请试用。模型使用受 Stability AI 许可协议的约束。请在下方查看相关的协议内容。", "license": "https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/LICENSE.md", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "vidu 1.5": [ { "name": "vidu1.5", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": false, "size": "l", "by": "生数科技", "brand": "vidu", "generation": "1.5", "finetunable": false, "id": "mo-dakqd2krkrngv7wl", "devid": "", "mustApplyForTrial": true, "opensource": false, "shortdesc": { "title": "🚀 重磅预告!全新音频/视频/多模态模型即将震撼来袭! 🚀", "content": "音频/视频/多模态模型 QVQ-72B-Preview、Qwen2-VL、Fish-Speech-1.5 等即将上线,为您带来前所未有的智能体验。点击右上方「申请体验」填写问卷,提交更多模型需求,您的意见对我们至关重要!" }, "highlights": { "title": "✨ 新模型亮点", "content": "🎥 VIDU1.5 视频大模型,不仅能分析视频内容,还能理解背后的情感、意图和复杂场景,为您提供智能视频解读、编辑建议及创作灵感。视频生成、推荐与互动,一切皆能触手可及!" }, "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": {}, "benchmark_source": "", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "yi 1.5": [ { "name": "yi-1.5-34b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "hosted_api": true, "size": "l", "by": "零一万物", "brand": "yi", "generation": "1.5", "finetunable": false, "id": "", "devid": "", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Yi-1.5 是 Yi 的升级版本。 它使用 500B Tokens 的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。" }, "highlights": { "title": "模型亮点", "content": "与 Yi 相比,Yi-1.5 在编程、数学、推理和指令执行能力方面表现更为出色,同时仍然保持了在语言理解、常识推理和阅读理解方面的卓越能力。" }, "note": "此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。", "license": "https://github.com/01-ai/Yi/blob/main/LICENSE", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "76.8", "gsm8k": "90.2", "math": "50.1", "humaneval": "75.2", "mbpp": "74.6", "mt-bench": "8.5", "alignbench": "7.2", "arenahard": "42.6", "alpacaeval2.0": "36.6" }, "benchmark_source": "https://www.modelscope.cn/models/01ai/Yi-1.5-34B-Chat", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ], "yi 1": [ { "name": "yi-34b-chat", "arch": [ "transformer", "decoder-only", "dense" ], "type": "text", "tags": [ "text-generation", "conversational" ], "size": "l", "by": "零一万物", "brand": "yi", "generation": "1", "finetunable": false, "hosted_api": false, "id": "", "devid": "mo-c7erqymylmbqjyf6", "opensource": true, "shortdesc": { "title": "模型介绍", "content": "Yi 系列是由零一万物研发的基于 Transformer 和 Llama 开源社区研发的大语言模型系列。Yi-34B-chat 是其中一个 340 亿参数规模,针对于对话场景进行优化的大语言模型,适合用于多种用途,在 MMLU、CMMLU、BBH、GSM8k 等多个主流的学术数据集上相较已有的开源模型都有不俗的表现,是一个相对推理性价比较高的模型规模。" }, "highlights": { "title": "模型亮点", "content": "Yi-34B-chat 预训练过程中使用了 3T 的训练数据,该模型的数据的知识截止日期为 2023 年 6 月" }, "note": "此模型的使用受零一万物许可协议的约束。请在下方查看相关的协议内容。", "license": "https://www.lingyiwanwu.com/yi-license", "disclaimer": "限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。", "benchmark": { "mmlu": "67.62(0-shot),73.46(5-shot)", "cmmlu": "79.11(0-shot),81.34(5-shot)", "c-eval": "77.04(0-shot),78.53(5-shot)", "truthfulqa": "62.43(0-shot)", "bbh": "51.41(0-shot),71.74(5-shot)", "gsm8k": "71.65(0-shot),75.97(5-shot)" }, "benchmark_source": "https://www.modelscope.cn/models/01ai/Yi-34B/summary", "pricing": { "postpaid": [ { "rule_id": "serverless", "description": "预置大模型 API 服务", "rate": 0.0029, "rate_output": 0.0029, "unit": "元/每千 Token", "discount": 1, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "dedicatedLora", "description": "使用 LoRA 部署自定义微调模型 API 服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "每小时出账", "description": "" } }, { "rule_id": "finetune", "description": "大模型微调服务", "rate": null, "unit": "元/每千 Token", "discount": 0, "billing_method": { "method": "训练完成后出账", "description": "" } } ], "prepaid": [] }, "auth": "/iam/secret/key", "help": "API 列表与参数说明,请访问 [GenStudiso API 参考文档](https://docs.infini-ai.com/gen-studio/api/maas.html)。\n\n> [!IMPORTANT]\n> - 若该模型支持多种芯片,请通过 API Server URL 中的变量 `{chiptype}` 指定芯片。\n>- 为了保障服务的稳定性及合理使用,我们对 GenStudio API 服务进行了频率限制。参考 [API 限频](https://docs.infini-ai.com/gen-studio/api/rate-limit.html)。 \n\n" } ] }