在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content
回到全部文章

无问芯穹一站式 AI 平台(AIStudio)入门指导

欢迎使用一站式 AI 平台 AIStudio!

本文面向初次使用 「包年包月资源」 的客户,介绍如何使用一站式 AI 平台,体验开发、训练和推理功能。

注意

平台账号

获取智算云平台的登录账号和资源,体验 AIStudio 的开发、训练和推理功能。

  • 如果已获取平台账号,可点击下方链接,直达 AIStudio 的 Web 控制台。

  • 如果您已自行注册账号,可联系商务人员,为您的账号分配资源。

    业务咨询 pre-sales@infini-ai.com

    联系电话 400-806-6058

    诚邀您持续关注我们:

    alt text

首次登录

您可以通过智算云控制台查看当前账号的信息。如需排障,可能需要您提供租户 ID。

alt text

资源

无问芯穹 AIStudio 提供两类有额度限制的资源类型:
  • 计算资源
  • 存储资源

下面分别对两类资源进行介绍,并介绍如何查看相应的资源配额。

算力资源

无问芯穹商务人员会提前与您联系,确定分配给您账号的算力资源。

AIStudio 提供从入门级 GPU,到专业级高性能 GPU 算力的多种选项,包括:

  • NVIDIA A100 40G 显存
  • NVIDIA A100 80G 显存
  • NVIDIA H100 80G 显存
  • NVIDIA 入门级 GPU 24G 显存

运行容器时需要指定「负载规格」(CPU、GPU、内存)、选择「镜像」(可以理解为预装的操作系统和应用程序)、挂载「共享高性能存储」。

注意

  • AIStudio 基于 K8S 和容器技术提供主要功能,仅提供池化的算力资源,而非裸机或虚拟机。
  • 您只能按 AIStudio 预定义的负载规格使用算力,按 GPU 数量分为 1、2、4、8 卡。例如: 您的租户的算力资源为 NVIDIA A100 80G 显存 * 8,则表示该租户获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。

存储资源

AIStudio 提供共享高性能存储功能,性能可达每单位 30k IOPS,上限 1 亿文件(以 10TB 为单位)。采用多副本机制,确保数据安全可靠。

您无需手动管理共享高性能文件存储。在创建开发机、任务、推理服务时,平台会默认将存储以建议挂载点的方式挂载至算力容器内。

alt text

注意

智算云平台暂不提供可用存储资源的全局视图,您可以在容器内使用 df -h 查看存储配额。

了解 AIStudio

AIStudio 是无问芯穹推出的企业级机器学习开发平台,提供一站式开发、训练、推理服务,旨在为开发者提供出色的开发体验。

AIStudio 包含以下功能:

  • 开发机:为开发者提供的在线编译、调试代码和模型开发的模块,可在开发机内部启动 Docker 容器。
  • 任务:预置了 PyTorchDDP、MPI 多种分布式训练框架,用户无需关心底层机器调度和运维,上传代码和填写适量的参数即可快速发起分布式训练任务。
  • 推理服务:可选择基于平台或自定义的推理服务镜像,配置合适的资源,将模型部署为推理服务。
  • 镜像:平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像,支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

动手体验开发机

开发机是您在智算云平台上的专属工作台。它基于容器技术,但提供了一个持久化的 Linux 环境,操作体验与您熟悉的基础设施(物理机或虚拟机)几乎一致

在这里,您可以延续「先登录服务器,再手动输入命令」的经典开发模式:

  • 持久化系统盘:即使关机或重启,您安装的软件、环境变量(如 ~/.bashrc)和代码文件都会完整保留,就像使用一台长期运行的虚拟机。
  • Root 权限:您拥有容器内的完整 Root 权限,可以使用 apt 安装软件、配置 git 或管理用户环境。
  • 高性能环境:预置了 NVIDIA 驱动、Python 等 AI 开发工具,直接调用数据中心级别的 GPU 算力。

创建您的工作台

点击下方链接,快速创建一个开发机。

在配置时,为了获得最佳的交互体验,建议关注以下设置:

  • SSH 登录密码:建议启用,以便后续使用本地终端(Terminal)或 VS Code 远程连接。
  • 镜像:选择您熟悉的操作系统环境(如 Ubuntu)。
  • 存储:平台已默认配备了 100GiB 的持久化系统盘,您也可以根据需要挂载共享高性能存储。

连接与使用

开发机启动后(状态为 运行中),您可以通过以下两种方式登录,开始您的开发工作。

Web Terminal:即开即用

无需安装任何客户端,直接在浏览器中打开类似 Shell 的界面。适合快速查看状态或执行简单命令。

在开发机列表中,点击右侧的 登录 按钮即可访问。

SSH 远程连接:生产力首选

通过 SSH,您可以将开发机无缝集成到您的本地开发流中。无论是使用 VS Code 的 Remote-SSH 插件,还是直接使用终端命令,体验都与连接一台远程物理机无异。

alt text

提示

开发机 vs 虚拟机:虽然操作体验高度一致,但开发机本质上是运行在 Kubernetes 上的容器。

  • 轻量化:容器去除了 Systemd 等重型组件以提升启动速度。因此 systemctl 命令不可用,建议直接运行程序或使用 tmux 管理后台会话。
  • 资源隔离:能享受到容器化的灵活性(如一键更换镜像、环境重置),同时系统通过 MIZAR_CPUSET 等机制确保您的 CPU/GPU 资源独占性。

开发机常见问题

  1. 如何传输数据?

  2. 如何从公网访问开发机内的服务?

    开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。

    详细操作步骤,可参考教程 如何从公网访问开发机内的服务

  3. 可以使用哪些镜像?

    点击下方链接,直接访问智算云控制台的镜像中心。平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像,支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

  4. 如何使用 root 身份登录?

    开发机默认登录用户为 root 身份。

    警告

    执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。

从开发机到任务与推理服务:先理解启动命令

开发机的操作体验对齐了物理机/虚拟机,让您能轻松上手。但是,当您准备将模型从开发机迁移到「训练任务」或「推理服务」时,您需要适应一套完全不同的运行逻辑。

训练任务推理服务的运行机制与开发机截然不同。许多在开发机(或物理机)上通过“SSH 登录后交互运行”验证通过的代码,直接复制到这两个模块中往往会运行失败。

如果不提前理解这种差异,您在填写「启动命令」时可能会感到困惑,或者遭遇“任务启动即退出”、“服务无法连接”等问题。为了帮助您顺利跨过这个门槛,请务必理解以下三个核心观念的转变:

从登录后操作转变为启动即运行

在物理机或虚拟机环境,常见的操作流程是:SSH 登录,进入目录,查看文件,然后手动输入命令运行。机器启动后,通常是一个安静等待指令的空环境。

在智算云平台上,推理服务和训练任务的容器是为单一任务而生的。您在表单中填写的「启动命令」,直接定义了容器的运行目标。如果没有一个持续运行的前台进程,容器启动后会立即认为任务完成并退出。

常见错误: 误以为容器启动后会等待登录,因此填写了非阻塞的短命令(例如 ls -lecho "start"nvidia-smi)。这导致容器执行完命令后立即销毁,无法登录。

建议策略: 如果您需要像虚拟机一样使用(先启动,再 SSH 登录操作),请在启动命令中填写 sleep infinity。这个命令会使容器保持“睡眠”运行状态,方便您 SSH 登录进去调试。

理解进程与容器的生命周期绑定

在物理机或虚拟机环境,脚本运行结束后,终端和 Shell 依然存在,您可以继续运行下一个命令。

在智算云平台上,容器的存活状态完全依赖于启动命令启动的进程。对于训练任务,命令结束(无论成功还是报错),容器就会销毁。对于推理服务,命令必须是一个阻塞式的长运行进程,否则服务会中断。

常见错误: 习惯性地使用了 nohup& 后台运行代码。这导致前台进程立即退出,触发容器销毁机制,或者陷入反复重启。

建议策略: 始终确保启动命令是前台运行的阻塞式进程。对于推理服务,避免使用后台运行符 &。如果您需要顺序运行多个命令(例如安装依赖后启动训练),请使用 && 连接它们,例如:pip install -r requirements.txt && python train.py

理解本地路径与挂载映射的区别

在物理机或虚拟机环境,代码位置通常是固定且在文件系统中可以直接看到的(例如 /home/user/project)。

在智算云平台上,代码存在于存储系统中,只有在容器启动的那一刻,才会根据表单配置挂载到指定的容器路径。您需要根据表单配置(容器内访问路径)判断代码在容器内的实际位置,确认在运行脚本前是否需要先切换目录。

常见错误: 直接使用本地开发时的相对路径,或将数据写入非挂载目录(例如代码依赖 ./data 等相对路径,却未在启动命令中先 cd 切换到挂载目录;或者将模型保存到了 /root 等临时路径)。这导致找不到挂载的数据,或数据在容器销毁后丢失。

建议策略: 填写启动命令前,仔细检查“存储挂载”设置,确认您的代码和数据被挂载到了哪个容器内路径。在启动命令中显式地切换工作目录,例如 cd /mnt/my-code,并确保将输出结果写入挂载的持久化存储路径中。

注意

关于训练任务和推理服务的启动命令,建议深入阅读:

动手体验推理服务

一站式 AI 平台(AIStudio)的推理服务专为生产环境设计。相比于在开发机中手动运行 API Server,使用推理服务模块部署模型具有显著的企业级优势:

  • 开箱即用高可用:内置负载均衡器,自动分发流量,单点故障不影响整体服务。
  • 极致弹性:支持自动扩缩容,根据 QPS 或 GPU 利用率毫秒级调整实例数量,从容应对流量波峰波谷。
  • 大模型友好:原生支持 vLLM/SGLang 等高性能框架及多机多卡分布式推理,无需复杂的集群网络配置。

alt text

推理服务:核心运行机制

推理服务旨在提供 7x24 小时 的稳定在线服务,其运行逻辑围绕“高可用”构建:

  1. 进程即生命:启动命令必须是阻塞式的前台进程。一旦命令执行结束(或被放入后台),容器就会被平台判定为异常并自动重启。请勿使用 nohup&
  2. 优雅停机:在自动扩缩容过程中,频繁的实例销毁是常态。您的服务需要正确响应 SIGTERM 信号,处理完当前正在推理的请求后再退出,确保业务零中断(Zero Downtime)。
  3. 无状态设计:任何持久化数据都不应写入容器系统盘(重启即丢失)。模型文件应读取自共享存储,业务日志应推送到标准输出或外部日志服务。

提示

如何编写既能前台运行又能优雅退出的启动脚本?请参考最佳实践:优化推理服务启动命令

极速体验与标准流程

为了帮助您快速上手,我们提供了两种体验方式:

  1. 极速体验(推荐):直接参考 极速部署教程。该教程无需手动准备模型,通过脚本自动下载,5 分钟即可拉起服务。
  2. 标准流程:按照下文的步骤,体验“下载模型 -> 部署服务 -> 验证服务”的完整生产闭环。有助于建立正确的使用思维。

下载模型文件

在生产部署中,我们通常需要先将模型文件存储在持久化的共享高性能存储中。

为方便体验,您可以使用 AICoder 提前下载开源模型:

bash
git lfs install
mkdir -p /mnt/pubic/models/
git clone https://www.modelscope.cn/qwen/Qwen2-7B-Instruct.git /mnt/pubic/models/Qwen2-7B-Instruct/

创建推理服务

访问智算云控制台的推理服务页面,可创建推理服务。

详细操作可参考教程 推理服务标准部署流程

针对主流推理框架,也可参考以下指南:

注意

如果您选择了手动下载模型(标准流程),在配置启动命令时,请确保加载的模型路径指向 /mnt/pubic/models/Qwen2-7B-Instruct/

测试推理服务

在推理服务部署完成后,可直接进入详情页,获取推理服务的内网 IP 地址。

alt text

如上图,推理服务的内网服务地址为: http://if-c7umsxyj7g36vrcj-service:80

点击智算云平台右上角,打开 AICoder Shell,向该服务的 API 端点 /v1/chat/completions 发送测试请求:

alt text

体验训练任务功能

一站式 AI 平台(AIStudio)的训练任务功能可支持单机训练任务和多机多卡的分布式训练任务。

alt text

注意

如果仅有单机多卡的训练需求,仅使用一站式 AI 平台(AIStudio)的开发机也可满足需求。

训练任务:核心运行机制

与开发机不同,训练任务是一次性的。任务启动后,您无法像登录开发机一样实时干预,因此“可观测性”和“结果反馈”至关重要:

  1. 容器即生即灭:任务命令执行结束(无论成功失败),容器立即销毁。不要将数据保存在容器系统盘中,务必写入挂载的共享存储。
  2. 退出码决定状态:平台仅依据启动命令的退出码判断任务状态(0 为成功,非 0 为失败)。脚本中请勿屏蔽错误(例如避免使用 command || true),否则失败的任务也会被标记为“成功”。
  3. 日志即视窗:容器的标准输出(stdout/stderr)会被平台自动采集展示。请直接将日志打印到屏幕,而不是仅写入容器内的不可见文件。

提示

遇到“任务秒退”或“显示成功但无产出”等疑难杂症?请查阅 训练任务启动命令指南 了解如何正确处理退出码与保留现场排障。

单机训练任务

我们提供了详细的实践教程,手把手教您如何在智算云平台上快速实现 Hugging Face 技术主管 Philipp Schmid 的 FSDP / LoRA / Q-Lora 微调教程。

使用 PyTorch FSDP 实现 Lora 及 Q-Lora 微调 Llama 3 70B 模型

阅读该教程后,您将基本了解无问芯穹智算云平台任务功能的基本操作:

  • 如何构建训练任务使用的自定义镜像
  • 如何通过 AICoder 下载和准备数据
  • 如何在任务界面上提交训练任务
  • 如何在任务界面上查看训练过程数据

分布式训练任务

在支持多机多卡分布式任务时,AIStudio 的任务功能具有以下优势:

  • 预置了对 Pytorch DDP 和 MPI 的支持。
  • 提供 IB 或 RoCE 训练网(详询商务)。
  • 无需手动配置分布式环境,平台自动感知当前资源与环境,进行最优配置。
  • 提供了简单、易用的自动容错的能力,保障训练任务长期稳定运行。

针对主流分布式框架,我们提供了详细的配置指南:

如果需要创建多机多卡的分布式训练任务,可参考官方文档:发起任务

后续步骤

恭喜您,成功体验了智算云平台 AIStudio 开发机、任务和推理服务功能。

接下来,您可以继续阅读以下文档,了解无问芯穹 AIStudio 的更多功能特性。

找不到想要的答案?
让 AI 助手为您解答