AIStudio 2025年上半年重要功能更新回顾 🎉
2025-05-29
在 2025 年上半年,一站式 AI 平台 (AIStudio) 迎来了多项重磅功能更新,涵盖资源购买、模型推理、存储管理、训练优化等核心能力的全面升级。这些新功能将为用户带来更灵活的资源配置、更强大的模型部署能力以及更高效的开发体验。
包年包月资源购买 💰
为了满足用户对长期稳定算力资源的需求,智算云平台现已支持在算力市场使用余额购买包年包月资源。用户可以通过包年包月的方式购买算力资源,用于开发机、任务、推理服务等场景,享受更优惠的价格和更稳定的资源保障。
这一功能特别适合:
- 需要长期进行模型训练的用户
- 对算力成本有预算规划需求的团队
- 追求资源稳定性的生产环境部署
分布式超大模型推理能力 🚀
针对日益增长的超大模型部署需求,「推理服务」功能全面升级,支持以分布式方式部署的超大模型。新的架构特性包括:
- 多 Worker 架构:单实例可由多个 Worker 组成,充分利用多GPU资源
- 负载均衡配置:支持配置多实例负载均衡,提升服务可用性
- 弹性扩缩容:支持手动扩缩容,灵活应对流量变化
这使得用户能够部署和运行参数量达到千亿级别的超大语言模型,满足企业级AI应用的需求。
存储资源自主管理 🗄️
平台新增存储资源管理及相关权限管控功能,为用户提供更灵活的存储解决方案:
- 自助创建存储卷:租户可根据需要自主创建和管理存储卷
- 细粒度权限控制:可配置存储卷的读写权限,确保数据安全
- 统一存储接入:创建的存储卷可供开发机、推理服务、训练服务统一使用
这一功能解决了用户在多服务间共享数据的痛点,提供了更加统一和安全的存储管理体验。
训练服务独立定价 📈
「任务」功能迎来重要升级,新增「训练服务」任务类型:
- 预置模型方案:内置 DeepSeek V3/R1 模型及专业训练方案
- 自定义训练支持:可使用预置 HuggingFace 框架进行自定义训练
- 独立定价体系:按预估时长独立定价,单独结算,成本更透明
📣 该功能需申请开通,如有需要,欢迎联系我们。
智能容错与性能优化 ⚙️
训练变慢检测
「任务」功能新增训练变慢检测能力,默认开启:
- 支持 Megatron-LM、LLaMA-Factory 训练框架
- 自动监测训练速度变化
- 在容错日志中提供告警提示
GPU 性能自检
任务容错功能增强GPU 性能检测模块:
- 启动自检阶段自动输出 GPU TFLOPS 算力指标
- 故障排查阶段提供详细性能日志
- 帮助用户快速定位性能问题
网络拓扑优化
通过网络拓扑感知的调度策略:
- 提升大规模训练任务的通信效率
- 优化多节点间的数据传输性能
- 降低分布式训练的网络延迟
开发者体验优化 ✨
环境变量引用支持
「任务」功能支持在指定 Tensorboard 日志存储路径时引用任务创建页面上定义的环境变量,有效解决:
- 任务重跑时的路径修改问题
- 任务克隆场景下的代码复用问题
- 减少重复的代码修改工作
atlctl 调试工具
新增 atlctl
命令行调试工具,为任务调试提供强大支持:
- 从 Web Terminal 登录任意任务 Worker
- 执行停止任务、统一下发测试命令等调试操作
- 简化复杂训练任务的问题排查流程
其他体验优化
- Web 应用预览功能持续优化,提供更流畅的开发体验
- 镜像拉取速度显著提升,减少等待时间
- 资源不足时的用户提示更加友好,支持排队或放弃创建选择
- 监控数据加载速度优化,监控页面响应更快
平台管理增强 🛡️
手机号绑定优化
解除智算云平台单手机号绑定限制:
- 单手机号码现在可绑定多个租户
- 方便多租户场景下的账号管理
- 提升平台使用的灵活性
开发机生命周期管理
对连续 30 天处于关机状态的开发机,平台将:
- 自动删除系统盘数据,释放存储资源
- 删除前通过短信提醒绑定手机号
- 帮助用户更好地管理资源成本
注意
以上功能已陆续在 2025 年 1 月至 5 月期间上线。更多详细的版本更新信息,请参见 AIStudio 更新日志。
提示
如需了解特定功能的详细使用方法,或对新功能有任何疑问,欢迎通过智算云平台联系我们的技术支持团队。