AIStudio SSH 公钥管理,一处配置,处处可用AIStudio SSH 公钥管理,一处配置,处处可用 ,只为更佳开发体验如何配置
Skip to content
回到全部文章

智算云平台新手入门

智算云平台是提供 API 服务、AI 训练、推理、部署能力的综合性云平台。本文将帮助您熟悉各个服务模块,找到最适合您的服务。

一站式 AI 平台

一站式 AI 平台(AIStudio)是面向机器学习开发者,提供开发机、任务等功能的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。

开发机

AIStudio 开发机提供了一个简单、灵活、高效的云端计算环境。

为什么选择 AIStudio 开发机?

  • 即时启动:选择算力资源规格与镜像,即可快速启动开发机,免除硬件故障困扰。
  • 可扩展性:根据需要扩展 CPU、GPU 或内存,可选多种 GPU 型号。
  • 集成 Docker 服务:集成 Docker 服务,可在开发机内启动和测试容器。
  • 云端访问:随时随地通过 SSH 或 Web 界面访问开发机。
  • 集成监控:集成实时资源监控,随时随地查看开发机资源指标。
  • 成本效益:支持按量付费,仅在需要时运行开发机。也支持包年包月方式购买计算资源。

开始使用

开始使用开发机,请查看文档。

拥有包年包月计算资源

按量付费

开发机用例

以下是一些常见的用例,展示了如何利用简化开发过程、提升工作效率。

  • 代码开发与测试

    开发机提供了一个隔离的环境,让您可以编写、测试和调试代码,而无需在本地设备设置复杂的依赖项。无论您是在开发 Python 应用程序、测试新库还是运行实验,开发机都能为您提供一个干净的工作空间。

    示例场景:

    • 使用已配备 PyTorch / CUDA 的预置镜像启动开发机,测试机器学习代码。
    • 自制自定义镜像,使用自定义镜像启动多台开发机,确保不同实验之间环境一致性。
  • 协作开发

    团队成员可选用相同的计算资源规格,以及同样的容器镜像,对依赖强一致性的合作调试的项目尤为有用。

    开发机可挂载共享高性能存储,团队内可加载共享存储上的同一份模型/数据集,轻松实现数据共享。

    创建开发机时,如遇到资源不足的情况,可查看负载排队情况并调整任务优先级。

    示例场景:

    • 创建自定义镜像,指定在团队成员使用同一镜像启动开发机,实现开发环境一致性。
    • 使用预置的 NGC / Pytorch 官方或社区镜像,在标准化的环境中运行代码,进行代码排障。
  • 算力共享

    开发机一般情况下将独占算力资源。如果需要提升 GPU 计算资源利用率,可以使用共享资源节点创建共享型开发机

    共享型开发机可解决以下问题:

    • 😠 资源分配不均:有限的 GPU 资源导致部分成员无法创建开发机
    • 😠 资源利用率低:独占式使用导致大量 GPU 算力闲置浪费
    • 😠 持续运行难题:为给他人腾出资源而被迫关机,影响开发进度

    使用共享开发机,在有限算力配额下(如 NVIDIA A100 80GB * 8)可创建更多开发机(最多 16 台),每位开发者都能获得:

    • 😊 独立环境:拥有独立的开发环境,不受他人影响
    • 😊 持续运行:无需临时关机,保障开发进度
    • 😊 灵活调度:按照先到先得原则分配 GPU 资源,提升整体利用率
  • 学习与培训

    开发机非常适合教育目的,无论是自学新技能还是培训团队。您可以快速启动一个预配置的开发机,避免复杂的本地设置。

    示例场景:

    • 在配备最新框架的开发机中学习深度学习。
    • 为学生或新员工提供一个一致的环境来进行实践练习。
    • 在开发机中通过安装软件等方式自定义环境,再将开发机保存为自定义镜像,提供一个定制的学习和开发环境。

任务

智算云平台 AIStudio 提供了一个强大的平台,用于在云端进行机器学习模型的训练。无论您是需要处理大规模数据集还是优化复杂模型,AIStudio 的任务功能都能帮助您高效地完成任务。

为什么选择 AIStudio 任务进行训练?

  • 高性能硬件:访问高性能 GPU、和大内存实例,支持 IB 网络。
  • 灵活性:自定义环境并根据需要扩展资源。
  • 易于使用:通过简单的 UI 配置即可启动和管理训练作业,支持从网页端注入环境变量。
  • 集成日志:集成日志功能,随时随地查看训练日志,内置 Tensorboard 可视化看板。
  • 集成监控:集成实时资源监控,随时随地查看训练资源消耗指标。
  • 集成容错:任务功能内置容错功能,可实现自助恢复训练。
  • 轻松排障:任务功能内置 atlctl 工具,支持原地调试。
  • 云端优势:无需本地硬件,随时随地运行训练。

开始使用

开始使用 AIStudio 任务,请查看文档。

拥有包年包月计算资源

按量付费

按量付费训练服务使用平台闲置算力,提交任务后无法保证立即执行。该服务需申请使用。

任务用例

以下是一些关键的用例,展示了如何利用智算云平台 AIStudio 来满足您的训练需求。

  • 大规模模型训练

    通过 AIStudio 的可扩展基础设施,您可以轻松训练需要大量计算资源的大型模型。从深度神经网络到自然语言处理模型,AIStudio 提供了按需分配 GPU 和 CPU 的能力。

    示例场景:

    • 创建单机任务,支持在单个或多个 GPU 上训练模型(如 BERT 或 GPT)。
    • 创建任务时指定多个 Worker,运行 MPI 或 Pytorch DDP 分布式训练作业。
  • 自定义训练环境

    每个项目都有独特的需求。智算云平台 AIStudio 允许您创建自定义训练环境,确保您拥有所需的精确依赖项和工具。

    示例场景:

    • 使用特定的 PyTorch 或 TensorFlow 版本配置任务 Worker。
    • 自定义镜像中安装自定义库或工具,以支持您的训练工作流程。
  • 团队协作

    租户管理员可配置资源池权限,实现不同团队间资源隔离。

    创建任务时,如遇到资源不足的情况,可查看负载排队情况并调整任务优先级。

推理服务

智算云平台 AIStudio 提供了一个高效的平台,用于在云端运行和管理 AI 模型推理。以下是一些关键用例,展示了如何利用 智算云平台 AIStudio 的推理功能来满足您的需求。

为什么选择 AIStudio 推理服务?

  • 高性能:利用 GPU 和优化的运行时实现快速推理。
  • 灵活性:支持通过自定义镜像支持各种模型架构和自定义配置。
  • 可扩展性:根据需求无缝扩展,从小型测试到大规模部署。
  • 易于使用:通过简单的配置启动和管理推理任务。
  • 灵活性:支持通过自定义镜像支持各种模型架构和自定义配置。
  • 集成高可用:配置多实例推理服务,自动实现负载均衡和故障重启。
  • 集成日志:集成日志功能,随时随地查看训练日志,内置 Tensorboard 可视化看板。
  • 集成监控:集成实时资源监控,随时随地查看训练资源消耗指标。

开始使用

开始使用 AIStudio 推理服务,请查看文档。

拥有包年包月计算资源

按量付费

推理服务服务暂不支持按量付费。

推理服务用例

  • 模型部署

    能够快速部署模型并立即获得 API 服务,无论是大型语言模型(LLM)或图像生成模型,均可在生产环境中高效运行,提供低延迟和高吞吐量的推理服务。

    推理服务可挂载共享高性能存储,轻松实现数据共享。

    示例场景:

    • 加载开发机或训练服务写入共享存储上的模型,在模型训练结束后立即开始测试或上线为对外服务
    • 利用 AICoder 下载模型,写入共享存储,部署为 API 服务。
  • 高可用部署

    利用 AIStudio 的可扩展基础设施,您可以部署高可用推理服务。

    示例场景:

    • 创建推理服务时选择多个实例,推理服务将在不同实例间实现负载均衡。实例运行失败后可自动重启。
  • 成本优化

    智算云平台 AIStudio 的按需资源分配和自动缩放功能使您能够优化推理成本,仅在需要时使用高性能计算资源。

    示例场景:

    • 为推理服务配置扩缩容,在流量高峰期运行推理任务,然后在低需求时缩减资源。
    • 修改推理服务使用的算力资源规格,以适应总体成本需求。参见升级推理服务
  • 自定义推理环境

    您可以创建完全自定义的推理环境,自选推理引擎和依赖项来运行您的模型。

    示例场景:

    • 使用预置的推理镜像(基于 VLLM)配置推理服务。
    • 自定义镜像中安装自定义库或工具,以确保使用最合适的推理引擎。

大模型服务平台

大模型服务平台(GenStudio)针对生成式大模型的应用落地的多种场景需求,为应用开发者提供高性能、易上手、安全可靠的大模型服务,覆盖大模型服务化部署的全流程。

预置模型

GenStudio 预置了多种开源闭源模型,对外提供 API 访问服务。

多 LoRA 部署

企业在大模型部署中面临的挑战,主要源于多个业务场景需要独立微调和部署大语言模型。如何把多个微调后的大模型合并部署以节省成本呢?

GenStudio 多 LoRA 部署支持租户上传多个 LoRA 模型,部署为独立 API 服务。

ComfyUI 工作流托管服务

GenStudio 的 ComfyUI 工作流托管服务允许用户将本地 ComfyUI 工作流上传至云端,并通过 API 调用来执行这些工作流。平台负责维护工作流的运行环境,优化算力资源和推理效率,使用户能够专注于创意而非技术细节。

常见问题

个人开发者可以使用哪些服务?

个人开发者可用服务如下:

  • AIStudio 按量付费型开发机。
  • GenStudio 的预置模型 API 服务。

不可用服务:

  • 由于没有包年包月资源,您无法使用 AIStudio 包年包月/共享型开发机。
  • 您无法直接 GenStudio 企业级功能,如多 Lora 部署、ComfyUI 托管服务。如有需求,请联系商务。

企业开发机可以使用哪些服务?

经过企业认证的企业租户可以使用全部服务。

如无法使用,请联系商务或技术支持开通服务。