在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像在 AIStudio 镜像中心使用 Dockerfile 自助构建最新版 vLLM 镜像 ,无需访问 DockerHub立即构建
Skip to content

公共数据

公共数据是智算云平台维护的公共开放数据仓库,集成了业界主流的开源大模型权重(如 Llama 3、Qwen 等)和常用数据集。

您可以在控制台的「公共数据」页面浏览平台已收录的模型和数据列表,并在创建开发机、任务或推理服务时一键挂载,无需重复下载海量数据,极大提升研发效率。

功能特性

  • 开箱即用: 无需手动下载和上传 TB 级模型文件,挂载即用。
  • 高速访问: 数据存储于高性能存储集群,提供高带宽低延迟的读取能力。
  • 节省成本: 无需占用用户的云盘或共享存储空间,直接挂载为只读路径。
  • 持续更新: 平台团队定期跟进社区动态,更新热门模型和数据集。

浏览公共数据

在控制台左侧导航栏选择公共数据,即可进入列表页面。

页面展示了所有可用的公共数据资源,包含以下信息:

  • 名称:数据或模型的名称。
  • 类型:模型(Model)或数据集(Dataset)。
  • 来源:如 HuggingFace、ModelScope 等。
  • 路径:数据在挂载后的相对路径。
  • 简介:数据的简要说明。
  • 可用区:该数据支持的可用区(目前仅支持广东B、宁夏B、北京D)。

挂载公共数据

在创建「开发机」、「任务」或「推理服务」时,在存储配置区域勾选挂载公共数据即可。

注意

该选项仅在所选算力规格位于支持的可用区(如广东B、宁夏B、北京D)时出现。

访问数据

挂载成功后,公共数据将以只读方式挂载到容器内的 /infini-data/ 目录下。

您可以在终端或代码中直接访问。

bash
ls -alht /infini-data/

在 PyTorch 或 Transformers 中加载模型示例:

python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "/infini-data/models/llama-3-8b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)