推理服务
一站式 AI 平台(AIStudio)的推理服务,可快速便捷地将训练好的模型部署成线上服务,接入实际业务场景。
功能亮点
- 高性能推理:预置镜像基于 FastChat 与 vLLM worker,提供高性能的模型推理能力,可快速部署模型服务。
- 框架自由:通过自定义镜像使用自选推理框架和推理引擎,无论是开源框架还是自研框架都可以灵活接入。
- 多样化访问:支持内外网 API 访问(外网访问通过 API Key 保护),对于带有图形界面的服务还支持 GUI 访问。
- 智能负载均衡:平台自动处理负载均衡,并支持基于时间、指标的扩缩容策略以及手动扩缩容。
基本操作
智算云控制台的推理服务页面提供了基本的增、删、查等操作。页面默认展示当前用户的推理服务列表,可切换为展示当前租户下全部推理服务。
管理操作按钮:
- 克隆:快速复制已有推理服务配置,修改后再提交。
- 停止:停止操作需二次确认。
- 启动:启动已经停止的推理服务。
- 删除:删除操作需二次确认。删除后不可恢复。
- 升级:支持以不停服的方式修改运行中的推理服务。参考升级服务。
查看操作按钮:
- 查看推理日志:点击可跳转至日志视图。默认展示第一个实例的日志,日志每 10s 采集一次。
- 调用推理服务:点击展示调用地址。参考查看调用信息。
NOTE
在详情页面可以修改推理服务。当前仅支持编辑服务名称和描述。
查找推理服务
推理服务名称和 ID 支持模糊搜索。状态、资源池、创建者等字段支持筛选。时间字段支持排序。
创建推理服务
详细步骤可参见部署服务。
查看推理服务详情
在推理服务列表中,点击任意条目右侧的详情操作按钮,可查看该推理服务的详情。推理服务详情页包含基础配置、规格信息、挂载信息、实例信息。
查看调用信息
在推理服务列表中,点击任意条目右侧的调用按钮,可查看该推理服务的调用信息,其中包含内网、外网访问地址。
IMPORTANT
目前仅直接提供内网环境访问地址。如需从公网访问,请参见调用推理服务。
常见问题
如何修改线上推理服务的镜像和实例的 CPU、GPU、内存配置?
您可以通过升级服务的方式修改推理服务的镜像、实例规格(CPU、GPU、内存配置)。
详见升级服务。
如何修改线上推理服务的实例数量?
线上推理服务支持通过自动扩缩容和手动扩缩容的方式修改实例数量。但是算力资源不足时,无法扩容,您需要购买更多资源。
详见扩缩容。
如何修改推理服务使用的资源池?
推理服务部署后,不支持修改资源池。
部署好的服务还能修改实例数量吗?
可以。推理服务创建成功后,可以通过手动扩缩容修改服务的基础实例数。您也可以通过「定时扩缩容」或「自动扩缩容」功能动态修改服务实例数。详见扩缩容。
如何获取推理服务的外网访问地址?
推理服务创建成功后,进入详情页,可找到外网访问地址,需要点击查看。详见访问推理服务。
公网访问推理服务支持 API 鉴权吗?
推理服务提供两种访问方式:
- 直接访问方式:仅当前登录云平台的用户可用(分享无效),在云平台登录状态未失效时一直可用。如需直接访问地址,必需设置推理服务的内网调用端口为
80
。 - API 鉴权访问方式:该地址受保护,需要通过 API 鉴权访问。请根据提示,复制有效的 API 密钥。
详见访问推理服务。
可否随时打开或关闭外网访问?
推理服务创建成功后,仍然可以修改部分配置,包括「外网访问」的开关和地址。请通过「升级」功能操作,详见升级推理服务。
推理服务支持什么排障手段?
如果推理服务异常或失败,可以从推理服务列表或进入详情页后点击日志,查看所有的错误日志记录,找到第一个异常日志记录及其对应的 Pod 信息。
在推理服务正常运行后,如果部分实例异常,平台会自动重建实例,无需手动操作。推理服务还支持在不停服务的情况下手动重建指定实例。
详见故障处理。