GenStudio 全新上架 ComfyUI 工作流托管服务GenStudio 全新上架 ComfyUI 工作流托管服务 ,已适配主流 ckpt 模型与节点了解更多
Skip to content
回到全部文章

无问芯穹一站式 AI 平台(AIStudio)入门指导

欢迎使用无问芯穹是一站式 AI 平台 AIStudio!

本文面向初次使用 AIStudio 的客户,介绍如何使用无问芯穹的一站式 AI 平台,体验开发、训练和推理功能。

平台账号

请您提前联系无问芯穹商务人员,获取智算云平台的登录账号和资源,体验 AIStudio 的开发、训练和推理功能。

  • 如果已获取平台账号,可点击下方链接,直达 AIStudio 的 Web 控制台。

  • 如果您已自行注册账号,可联系无问芯穹商务人员,为您的账号分配资源。

    业务咨询 pre-sales@infini-ai.com

    联系电话 400-806-6058

    诚邀您持续关注我们:

    alt text

首次登录

您可以通过智算云控制台查看当前账号的信息。如需排障,可能需要您提供租户 ID。

alt text

资源

无问芯穹 AIStudio 提供两类有额度限制的资源类型:

  • 计算资源
  • 存储资源

下面分别对两类资源进行介绍,并介绍如何查看相应的资源配额。

算力资源

无问芯穹商务人员会提前与您联系,确定分配给您账号的算力资源。

AIStudio 提供从入门级 GPU,到专业级高性能 GPU 算力的多种选项,包括:

  • NVIDIA A100 40G 显存
  • NVIDIA A100 80G 显存
  • NVIDIA H100 80G 显存
  • NVIDIA 入门级 GPU 24G 显存

运行容器时需要指定「负载规格」(CPU、GPU、内存)、选择「镜像」(可以理解为预装的操作系统和应用程序)、挂载「共享高性能存储」。

NOTE

  • AIStudio 基于 K8S 和容器技术提供主要功能,仅提供池化的算力资源,而非裸机或虚拟机。
  • 您只能按 AIStudio 预定义的负载规格使用算力,按 GPU 数量分为 1、2、4、8 卡。例如: 您的租户的算力资源为 NVIDIA A100 80G 显存 * 8,则表示该租户获得了使用 8 个 NVIDIA A100 的配额,可创建 8 个包含 1 个 GPU 的开发机。

存储资源

AIStudio 提供共享高性能存储功能,性能可达每单位 30k IOPS,上限 1 亿文件(以 10TB 为单位)。采用多副本机制,确保数据安全可靠。

您无需手动管理共享高性能文件存储。在创建开发机、任务、推理服务时,平台会默认将存储以建议挂载点的方式挂载至算力容器内。

alt text

NOTE

智算云平台暂不提供可用存储资源的全局视图,您可以在容器内使用 df -h 查看存储配额。

了解 AIStudio

AIStudio 是无问芯穹推出的企业级机器学习开发平台,提供一站式开发、训练、推理服务,旨在为开发者提供出色的开发体验。

AIStudio 包含以下功能:

  • 开发机:为开发者提供的在线编译、调试代码和模型开发的模块,可在开发机内部启动 Docker 容器。
  • 任务:预置了 PyTorchDDP、MPI 多种分布式训练框架,用户无需关心底层机器调度和运维,上传代码和填写适量的参数即可快速发起分布式训练任务。
  • 推理服务:可选择基于平台或自定义的推理服务镜像,配置合适的资源,将模型部署为推理服务。
  • 镜像:平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像,支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

动手体验开发机

跟随我们的体验教程,使用您的资源快速部署一个开发机,并测试开发机的可用性。

创建开发机

点击下方链接,直接访问智算云控制台的创建开发机页面。

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息

    • 资源池类型:请选择资源池
    • 资源池:选择列表中的资源池。
    • 规格:运行开发机容器的算力配置,也称为「负载规格」。每种显卡类型均提供 1、2、4、8 卡配置。
    • 共享内存/dev/shm 分区大小,固定值,为「负载规格」内存的一半。

    alt text

    NOTE

    上图使用了 1 卡 NVDIA A100 显卡的算力规格创建一台开发机。假设您的账号拥有 8 卡 NVIDIA A100 GPU 的算力资源,该开发机进入运行中状态后,算力资源将被该开发机占用 1 卡。

  • 基础配置:请根据下方要求填写:

    • 镜像:可从预置镜像中选择任意镜像,例如 Ubuntu 基础镜像 infini-ai/ubuntu:20.04-20231109
    • 公钥: SSH 公钥之后可 SSH 远程登录开发机(也可登录后手动添加)。
    • docker 容器:勾选后,开发机将预装 Docker 环境。详见 Docker 功能

    alt text

  • 存储配置:根目录(/) 持久化保存,50 GB。/mnt 有三个默认挂载点,使用高性能文件存储。

    共享高性能存储目录默认挂载点
    /datasets(只读)/mnt/resource
    /public(租户下读写)/mnt/public
    /user_dir/<username>(仅用户读写)/mnt/<username>
  • 基本信息:填写开发机名称。描述可留空。

开发机部署完成后,会进入运行中状态。您可以点击登录按钮访问 webterminal。

alt text

如需 SSH 远程登录,可从开发机详情页获取 SSH 地址。

开发机常见问题

  1. 如何传输数据?

  2. 如何从公网访问开发机内的服务?

    开发机内服务往往只监听了内网地址,无法直接从公网访问。如遇到演示、测试等临时性场景,可能需要从公网访问开发机内服务。我们可以利用 SSH 端口转发功能,将云服务器内网端口映射到本地电脑,从而实现访问。

    详细操作步骤,可参考教程 如何从公网访问开发机内的服务

  3. 可以使用哪些镜像?

    点击下方链接,直接访问智算云控制台的镜像中心。平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像,支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

  4. 如何使用 root 身份登录?

    开发机默认登录用户为 root 身份。

    WARNING

    执行任何文件操作前,请核实当前用户身份,避免文件权限混乱。

体验训练任务功能

一站式 AI 平台(AIStudio)的训练任务功能可支持单机训练任务和多机多卡的分布式训练任务。

alt text

NOTE

如果仅有单机多卡的训练需求,仅使用一站式 AI 平台(AIStudio)的开发机也可满足需求。

单机训练任务

我们提供了详细的的实践教程,手把手教您如何在智算云平台上快速实现 Hugging Face 技术主管 Philipp Schmid 的 FSDP / LoRA / Q-Lora 微调教程。

使用 PyTorch FSDP 实现 Lora 及 Q-Lora 微调 Llama 3 70B 模型

阅读该教程后,您将基本了解无问芯穹智算云平台任务功能的基本操作:

  • 如何构建训练任务使用的自定义镜像
  • 如何通过 AICoder 下载和准备数据
  • 如何在任务界面上提交训练任务
  • 如何在任务界面上查看训练过程数据

分布式训练任务

在支持多机多卡分布式任务时,AIStudio 的任务功能具有以下优势:

  • 预置了对 Pytorch DDP 和 MPI 的支持。
  • 提供 IB 或 RoCE 训练网(详询商务)。
  • 无需手动配置分布式环境,平台自动感知当前资源与环境,进行最优配置。
  • 提供了简单、易用的自动容错的能力,保障训练任务长期稳定运行。

如果需要创建多机多卡的分布式训练任务,可参考官方文档:发起任务

动手体验推理服务

一站式 AI 平台(AIStudio)的推理服务,可快速便捷地将训练好的模型部署成线上服务,接入实际业务场景。

alt text

准备模型文件

在部署推理服务之前,需要准备模型文件。

为方便体验,您可以提前使用 AICoder 将开源模型下载到共享高性能存储中。

bash
git lfs install
mkdir -p /mnt/public/models/
git clone https://www.modelscope.cn/qwen/Qwen2-7B-Instruct.git /mnt/public/models/Qwen2-7B-Instruct/

创建推理服务

访问智算云控制台的推理服务页面,可创建推理服务。

进入创建页面后,请根据页面提示,完成以下配置。

  • 规格信息

    • 资源池类型:请选择资源池
    • 资源池:选择列表中的资源池。
    • 实例规格:运行推理服务的容器的算力配置。每种显卡类型均提供 1、2、4、8 卡的规格。每种规格对应一个特定的 CPU、显卡、内存配置组合。
    • 实例数量: 预期运行的实例数。实例数大于 1 时自动提供负载均衡。
    • 滚动更新: 设置最大不可用百分比,该参数仅影响服务升级与回滚。在开发测试阶段,单实例的情况下可设置为 0,多实例的情况下可设置为 50%。详细说明请移步官方文档:升级服务
  • 基础配置

    • 镜像: 首次使用,可选择推理服务的预置 vLLM 镜像,其中预装了包含 FastChat 与 vLLM,可简化大型语言模型的部署过程。专用镜像名称:

      cr.infini-ai.com/infini-ai/inference-base:v1-vllm0.4.0-torch2.1-cuda12.3-ubuntu22.04

    • 启动命令: 镜像的启动命令。请根据当前镜像,写入必要命令和环境配置。

      在启动命令中可使用上述镜像内置的 /app/entrypoint.sh 脚本,快捷启动基于 FastChat 和 vLLM 的推理服务。示例:

      bash
      export MODEL=qwen2-7b-instruct
      export TP=1
      export LOG=1
      
      # 推理镜像中不包含 model,您需要挂载自己的模型
      # 建议放置在共享高性能存储中
      ln -s /mnt/public/models/Qwen2-7B-Instruct/ /app/model/${MODEL}
      
      /app/entrypoint.sh

      如果希望在专用 vLLM 镜像时使用自己的启动脚本,请参考实践教程 推理服务:使用 FastChat 和vLLM 部署大语言模型

  • 存储配置:保持默认即可。平台会默认挂载租户的共享高性能存储,在创建任务时创建所有挂载点。

  • 网络配置:保持默认即可。平台会配置监听端口(默认 8000)和调用端口(默认 80)。当前仅支持 HTTP 访问。推理服务专用的 vLLM 镜像默认使用 20000 为监控端口,推理服务监控功能依赖该端口从镜像中采集业务监控数据。

  • 基本信息

    • 名称: 推理服务名称,最多 64 个字符,支持中英文数字以及- _。
    • 描述(可选): 上限 400 字符。

根据模型参数量,所需部署时间可能有差异。推理服务进入部署中状态后,将会执行一系列耗时的子操作。如果进度长期停留在部署中状态,建议查看详细部署进度。

测试推理服务

在推理服务部署完成后,可直接进入详情页,获取推理服务的内网 IP 地址。

alt text

如上图,推理服务的内网服务地址为: http://if-c7umsxyj7g36vrcj-service:80

点击智算云平台右上角,打开 AICoder Shell,向该服务的 API 端点 /v1/chat/completions 发送测试请求:

alt text