无问芯穹一站式 AI 平台（AIStudio）入门指导

欢迎使用一站式 AI 平台 AIStudio！

本文面向初次使用「包年包月资源」的客户，介绍如何使用一站式 AI 平台，体验开发、训练和推理功能。

注意

关于包年包月资源的详细价格信息，请点击 AIStudio 价格。
如果您使用「弹性资源」创建开发机，请移步 AIStudio 按量付费型开发机快速入门。

平台账号

获取智算云平台的登录账号和资源，体验 AIStudio 的开发、训练和推理功能。

如果已获取平台账号，可点击下方链接，直达 AIStudio 的 Web 控制台。
登录智算云平台
如果您已自行注册账号，可联系商务人员，为您的账号分配资源。
业务咨询 pre-sales@infini-ai.com
联系电话 400-806-6058
诚邀您持续关注我们：

首次登录

您可以通过智算云控制台查看当前账号的信息。如需排障，可能需要您提供租户 ID。

alt text

资源

无问芯穹 AIStudio 提供两类有额度限制的资源类型：

计算资源
存储资源

下面分别对两类资源进行介绍，并介绍如何查看相应的资源配额。

算力资源

无问芯穹商务人员会提前与您联系，确定分配给您账号的算力资源。

AIStudio 提供从入门级 GPU，到专业级高性能 GPU 算力的多种选项，包括：

NVIDIA A100 40G 显存
NVIDIA A100 80G 显存
NVIDIA H100 80G 显存
NVIDIA 入门级 GPU 24G 显存

运行容器时需要指定「负载规格」(CPU、GPU、内存)、选择「镜像」(可以理解为预装的操作系统和应用程序)、挂载「共享高性能存储」。

注意

AIStudio 基于 K8S 和容器技术提供主要功能，仅提供池化的算力资源，而非裸机或虚拟机。
您只能按 AIStudio 预定义的负载规格使用算力，按 GPU 数量分为 1、2、4、8 卡。例如：您的租户的算力资源为 NVIDIA A100 80G 显存 * 8，则表示该租户获得了使用 8 个 NVIDIA A100 的配额，可创建 8 个包含 1 个 GPU 的开发机。

存储资源

AIStudio 提供共享高性能存储功能，性能可达每单位 30k IOPS，上限 1 亿文件（以 10TB 为单位）。采用多副本机制，确保数据安全可靠。

您无需手动管理共享高性能文件存储。在创建开发机、任务、推理服务时，平台会默认将存储以建议挂载点的方式挂载至算力容器内。

alt text

注意

智算云平台暂不提供可用存储资源的全局视图，您可以在容器内使用 df -h 查看存储配额。

了解 AIStudio

AIStudio 是无问芯穹推出的企业级机器学习开发平台，提供一站式开发、训练、推理服务，旨在为开发者提供出色的开发体验。

AIStudio 包含以下功能：

开发机：为开发者提供的在线编译、调试代码和模型开发的模块，可在开发机内部启动 Docker 容器。
任务：预置了 PyTorchDDP、MPI 多种分布式训练框架，用户无需关心底层机器调度和运维，上传代码和填写适量的参数即可快速发起分布式训练任务。
推理服务：可选择基于平台或自定义的推理服务镜像，配置合适的资源，将模型部署为推理服务。
镜像：平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像，支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

动手体验开发机

跟随我们的体验教程，使用您的资源快速部署一个开发机，并测试开发机的可用性。

创建开发机

点击下方链接，直接访问智算云控制台的创建开发机页面。

创建开发机

进入创建页面后，请根据页面提示，完成以下配置。

规格信息：
- 资源池类型：请选择资源池。
- 资源池：选择列表中的资源池。
- 规格：运行开发机容器的算力配置，也称为「负载规格」。每种显卡类型均提供 1、2、4、8 卡配置。
- 共享内存：/dev/shm 分区大小，固定值，为「负载规格」内存的一半。
注意
上图使用了 1 卡 NVIDIA A100 显卡的算力规格创建一台开发机。假设您的账号拥有 8 卡 NVIDIA A100 GPU 的算力资源，该开发机进入运行中状态后，算力资源将被该开发机占用 1 卡。
基础配置：请根据下方要求填写：
- 镜像：可从预置镜像中选择任意镜像，例如 Ubuntu 基础镜像 infini-ai/ubuntu:20.04-20231109。
- SSH 登录密码：如果希望支持 SSH 登录密码，可启用此开关。平台将自动生成 SSH 登录密码，并显示在开发机详情页，后续您可手动修改密码（仅限开发机创建者修改）。
- 公钥：添加 SSH 公钥之后，可以使用 SSH 密钥认证，免密码远程登录开发机（也可登录后手动添加）。
- docker 容器：启用后，开发机内将提供 Docker 环境，首次体验时可保持关闭。如需体验，建议详细阅读 Docker 容器文档。
  注意
  如需管理极值算力实例内 Docker 服务，需使用 dockerctl 命令，例如 dockerctl status。详见 Dockerctl。
存储配置：根目录（/）持久化保存，100GiB。如果当前可用区内存在租户购买的高性能文件存储，可选择文件系统与存储卷，挂载至开发机内。详见。
基本信息：填写开发机名称。描述可留空。

开发机部署完成后，会进入运行中状态。您可以点击登录按钮访问 Web Terminal。

alt text

如需 SSH 远程登录，可从开发机详情页获取 SSH 地址。

开发机常见问题

如何传输数据？
- 如果需要传输本地数据到开发机的根目录下，可使用 scp 或 sftp 命令。详见上传和下载文件到开发机。
  如果需要图形界面，可参考教程如何使用 FileZilla 管理开发机内的文件。
- 如果读写开发机挂载的高性能文件存储（/mnt/ 路径下的目录），且数据传输耗时较长，更推荐使用 AICoder 上传和下载文件。AICoder 为我们免费提供的小规格 CPU 实例资源，可用于完成数据准备等操作，避免占用 GPU 资源。
如何从公网访问开发机内的服务？
开发机内服务往往只监听了内网地址，无法直接从公网访问。如遇到演示、测试等临时性场景，可能需要从公网访问开发机内服务。我们可以利用 SSH 端口转发功能，将云服务器内网端口映射到本地电脑，从而实现访问。
详细操作步骤，可参考教程如何从公网访问开发机内的服务。
可以使用哪些镜像？
点击下方链接，直接访问智算云控制台的镜像中心。平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像，支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。
镜像
如何使用 root 身份登录？
开发机默认登录用户为 root 身份。
警告
执行任何文件操作前，请核实当前用户身份，避免文件权限混乱。

体验训练任务功能

一站式 AI 平台（AIStudio）的训练任务功能可支持单机训练任务和多机多卡的分布式训练任务。

alt text

注意

如果仅有单机多卡的训练需求，仅使用一站式 AI 平台（AIStudio）的开发机也可满足需求。

单机训练任务

我们提供了详细的实践教程，手把手教您如何在智算云平台上快速实现 Hugging Face 技术主管 Philipp Schmid 的 FSDP / LoRA / Q-Lora 微调教程。

使用 PyTorch FSDP 实现 Lora 及 Q-Lora 微调 Llama 3 70B 模型

阅读该教程后，您将基本了解无问芯穹智算云平台任务功能的基本操作：

如何构建训练任务使用的自定义镜像
如何通过 AICoder 下载和准备数据
如何在任务界面上提交训练任务
如何在任务界面上查看训练过程数据

分布式训练任务

在支持多机多卡分布式任务时，AIStudio 的任务功能具有以下优势：

预置了对 Pytorch DDP 和 MPI 的支持。
提供 IB 或 RoCE 训练网（详询商务）。
无需手动配置分布式环境，平台自动感知当前资源与环境，进行最优配置。
提供了简单、易用的自动容错的能力，保障训练任务长期稳定运行。

如果需要创建多机多卡的分布式训练任务，可参考官方文档：发起任务。

动手体验推理服务

一站式 AI 平台（AIStudio）的推理服务，可快速便捷地将训练好的模型部署成线上服务，接入实际业务场景。

alt text

下载模型文件

在部署推理服务之前，需要自行下载模型文件。

为方便体验，您可以提前使用 AICoder 将开源模型下载到共享高性能存储中。

bash

git lfs install
mkdir -p /mnt/public/models/
git clone https://www.modelscope.cn/qwen/Qwen2-7B-Instruct.git /mnt/public/models/Qwen2-7B-Instruct/

创建推理服务

访问智算云控制台的推理服务页面，可创建推理服务。

创建推理服务

进入创建页面后，请根据页面提示，完成以下配置。

规格信息
- 资源池类型：请选择资源池。
- 资源池：选择列表中的资源池。
- 实例规格：运行推理服务的容器的算力配置。每种显卡类型均提供 1、2、4、8 卡的规格。每种规格对应一个特定的 CPU、显卡、内存配置组合。
- 实例数量：预期运行的实例数。实例数大于 1 时自动提供负载均衡。
- 滚动更新：设置最大不可用百分比，该参数仅影响服务升级与回滚。在开发测试阶段，单实例的情况下可设置为 0，多实例的情况下可设置为 50%。详细说明请移步官方文档：升级服务。
基础配置
- 镜像：首次使用，可选择推理服务的预置 vLLM 镜像，其中预装了包含 FastChat 与 vLLM，可简化大型语言模型的部署过程。专用镜像名称：
  - cr.infini-ai.com/infini-ai/inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04
  - cr.infini-ai.com/infini-ai/inference-base:v2-vllm0.6.2-torch2.2-cuda12.3-ubuntu22.04
- 启动命令：镜像的启动命令。请根据当前镜像，写入必要命令和环境配置。
  在启动命令中可使用上述镜像内置的 /app/entrypoint.sh 脚本，快捷启动基于 FastChat 和 vLLM 的推理服务。示例：
  bash
```
export MODEL=qwen2-7b-instruct
export TP=1
export LOG=1

# 推理镜像中不包含 model，您需要挂载自己的模型
# 建议放置在共享高性能存储中
ln -s /mnt/public/models/Qwen2-7B-Instruct/ /app/model/${MODEL}

/app/entrypoint.sh
```
  如果希望在专用 vLLM 镜像时使用自己的启动脚本，请参考实践教程推理服务：使用 FastChat 和vLLM 部署大语言模型。
存储配置：保持默认即可。平台会默认挂载租户的共享高性能存储，在创建任务时创建所有挂载点。
网络配置：保持默认即可。平台会配置监听端口（默认 8000）和调用端口（默认 80）。当前仅支持 HTTP 访问。推理服务专用的 vLLM 镜像默认使用 20000 为监控端口，推理服务监控功能依赖该端口从镜像中采集业务监控数据。
基本信息
- 名称：推理服务名称，最多 64 个字符，支持中英文数字以及- _。
- 描述：可为服务添加添加自定义描述，上限 400 字符。
- 标签：可新建和绑定自定义标签。资源标签是一组键值对（Key-Value）。您可以通过标签从不同维度对一站式 AI 平台内的资源进行分类与聚合管理，用于按标签筛选等场景。详见标签管理。

根据模型参数量，所需部署时间可能有差异。推理服务进入部署中状态后，将会执行一系列耗时的子操作。如果进度长期停留在部署中状态，建议查看详细部署进度。

测试推理服务

在推理服务部署完成后，可直接进入详情页，获取推理服务的内网 IP 地址。

alt text

如上图，推理服务的内网服务地址为： http://if-c7umsxyj7g36vrcj-service:80

点击智算云平台右上角，打开 AICoder Shell，向该服务的 API 端点 /v1/chat/completions 发送测试请求：

alt text

后续步骤

恭喜您，成功体验了智算云平台 AIStudio 开发机、任务和推理服务功能。

接下来，您可以继续阅读以下文档，了解无问芯穹 AIStudio 的更多功能特性。

无问芯穹一站式 AI 平台（AIStudio）入门指导 ​

平台账号 ​

首次登录 ​

资源 ​

算力资源 ​

存储资源 ​

了解 AIStudio ​

动手体验开发机 ​

创建开发机 ​

开发机常见问题 ​

体验训练任务功能 ​

单机训练任务 ​

分布式训练任务 ​

动手体验推理服务 ​

下载模型文件 ​

创建推理服务 ​

测试推理服务 ​

后续步骤 ​

无问芯穹一站式 AI 平台（AIStudio）入门指导

平台账号

首次登录

资源

算力资源

存储资源

了解 AIStudio

动手体验开发机

创建开发机

开发机常见问题

体验训练任务功能

单机训练任务

分布式训练任务

动手体验推理服务

下载模型文件

创建推理服务

测试推理服务

后续步骤