在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content

什么是一站式 AI 平台?

一站式 AI 平台(AIStudio)是面向机器学习开发者,提供开发机、任务等功能的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。

产品优势

  • 一站式: 涵盖 AI 开发全流程,包含数据管理、模型开发、训练、推理。
  • 高性价比: 提供高性价比的预付费计算资源,额外提供辅助功能帮助提升资源利用率。
  • 开发调试工具: 平台内置多种主流机器学习框架的镜像,极大提升开发和调试环境一致性。
  • 分布式训练: 预置多种分布式框架,可稳定、高效运行超大规模的分布式训练任务。
  • 高性能推理: 部署多种框架的模型到异构硬件,提供高吞吐、低延时、实时扩缩容、容错等特性。

开发体验

一站式 AI 平台旨在为人工智能应用开发者提供出色的开发体验。

开发机

开发机 提供 GPU 加速的云端开发环境,支持在线编译调试、模型开发、训练实验及 Docker 容器运行,数据可通过扩充存储跨服务共享。

任务

任务 托管式分布式训练服务,预置 PyTorch DDP、MPI 等主流框架,提供自动容错、任务监控与调试工具,用户只需提交代码和配置即可启动大规模训练。

推理服务

推理服务 高性能模型推理部署服务,支持 API 与 Web UI 访问,提供 LLM 场景专项监控、自动扩缩容与多种访问控制方式。

镜像中心

镜像:平台预置了 CUDA、Pytorch、DeepSpeed、NGC、Ubuntu 等基础镜像,支持基于预置镜像、开发机、Dockerfile 构建自定义镜像。

使用场景

快速原型验证

使用开发机进行算法验证和小规模实验,支持交互式开发和即时调试。

典型流程

  1. 通过 AICoder 或本地上传将数据集上传至云盘或共享存储
  2. 创建开发机,选择预置的深度学习框架镜像(PyTorch、TensorFlow 等)
  3. 在开发机内进行数据探索、特征工程和模型原型开发
  4. 使用小规模数据集进行训练实验,实时查看训练日志和监控指标
  5. 启动 Tensorboard 服务,通过平台 UI 可视化训练过程

适用场景: 算法研究、模型选型、超参数调优、代码调试

大规模分布式训练

使用任务服务进行生产级模型训练,无需关心底层资源调度和容错处理。

典型流程

  1. 在开发机中完成代码开发和单机验证
  2. 将训练代码和数据保存至共享高性能存储
  3. 在训练代码中集成 Tensorboard 日志记录
  4. 创建训练任务,选择分布式框架(PyTorch DDP、MPI 等)
  5. 配置计算资源(GPU 数量、节点数)和扩充存储挂载
  6. 提交任务并指定 Tensorboard 日志路径
  7. 通过平台监控训练进度,查看任务日志和容错日志
  8. 训练完成后,模型自动保存至共享存储

适用场景: 大语言模型预训练、多模态模型训练、超大规模数据集训练

容错保障

  • 自动重启:节点故障时自动恢复训练
  • 容错日志:记录异常和重启事件
  • 原地调试:使用 atlctl 工具登录 Worker 节点排查问题

模型服务化部署

将训练完成的模型部署为高性能推理服务,支持 API 和 Web UI 访问。

典型流程

  1. 从任务训练结果或开发机中准备模型文件,保存至共享存储
  2. 选择推理服务镜像(vLLM、TensorRT、Triton 等)
  3. 配置模型路径、推理参数和资源规格
  4. 部署推理服务,系统自动挂载存储并加载模型
  5. 配置扩缩容策略(自动、手动、定时)
  6. 设置访问方式:
    • API 访问:内网或 API Key 保护的公网访问
    • Web UI 访问:受平台账号保护的公网可视化界面
  7. 监控服务性能和业务指标(LLM 场景支持专项监控)

适用场景

  • LLM 对话服务、文本生成、代码辅助
  • 计算机视觉推理、图像识别、目标检测
  • 多模态应用、语音识别、推荐系统

访问控制

  • 内网访问:适用于企业内部应用集成
  • API Key 保护:为外部调用提供安全认证
  • 账号系统保护:Web UI 访问需平台账号登录

端到端 AI 工作流

整合开发机、任务和推理服务,实现完整的 AI 应用开发生命周期。

核心优势

  • 统一存储:开发机、任务、推理服务共享同一存储,数据无需重复迁移
  • 无缝衔接:开发机验证的代码可直接用于任务训练,训练产出的模型可直接部署
  • 灵活迭代:支持快速实验、规模化训练、生产部署的闭环迭代
  • 企业级可靠性:内置监控、日志、容错和访问控制机制

快速开始

获取账号

一站式 AI 开发平台(AIStudio)、大模型服务平台(GenStudio)、AI 容器服务平台(KubeStudio)同属于智算云平台,共享同一套账号和权限系统。

注册方式

  • 个人用户:使用手机号自助注册,平台将自动创建租户和用户
  • 企业用户:自行注册或联系商务、售后服务获取企业账号

登录凭证

  • 账号格式:用户名@租户名
  • 登录方式:绑定手机号登录 或 账号密码登录
  • 密码来源:自行设置 或 租户管理员分配

获取算力资源

平台提供灵活的算力资源获取方式,满足不同规模和预算需求。

获取途径

  1. 算力市场 自助购买

    • 浏览可用的 GPU 资源池(A100、H100、V100 等)
    • 按需选择计算规格和时长
    • 在线支付,即时开通使用
  2. 联系我们 定制方案

    • 大规模算力需求
    • 长期合作优惠
    • 专属资源池部署

资源类型

  • 单卡 GPU:适用于开发机、小规模训练
  • 多卡节点:支持分布式训练任务
  • 专属集群:企业级隔离环境

获取存储资源

平台提供高性能共享存储,支持跨服务数据共享和协作。

获取途径

  1. 文件系统 自助购买

    • 共享高性能存储:适用于大规模训练和推理
    • 云盘存储:适用于开发机个人数据
    • 按容量计费,弹性扩容
  2. 联系我们 定制存储

    • 超大容量需求(PB 级)
    • 专属存储池
    • 数据迁移服务

存储特性

  • 高性能:适配 GPU 训练的 I/O 需求
  • 共享访问:开发机、任务、推理服务统一挂载
  • 数据安全:三副本保护,自动备份

企业与团队使用

平台原生支持多用户协作,企业和团队可在同一租户下高效协同。

用户管理

  • 用户账号管理:租户管理员可创建、编辑、删除用户账号
  • 用户组管理:按部门、项目等维度组织用户,简化权限分配
  • 角色管理:预置管理员、开发者、只读等角色,支持自定义

权限控制

平台提供细粒度的权限策略,控制用户对资源的访问和操作权限。

  • 资源级权限:控制用户对开发机、任务、推理服务、存储的访问
  • 操作级权限:区分读取、创建、修改、删除等操作权限
  • 配置模板:参考 AIStudio 权限配置模板 快速配置企业权限体系

协作功能

  • 共享存储:团队成员共享数据集、模型、代码
  • 资源配额:为不同用户/部门分配算力和存储配额
  • 审计日志:记录用户操作,满足企业合规要求

典型场景

  • AI 研发团队:算法工程师使用开发机实验,算力工程师管理训练任务
  • 企业 AI 平台:为各业务部门提供统一的 AI 基础设施
  • 教育培训:为学员分配账号和资源,讲师统一管理