公共数据
公共数据是智算云平台维护的公共开放数据仓库,集成了业界主流的开源大模型权重(如 Llama 3、Qwen 等)和常用数据集。
您可以在控制台的「公共数据」页面浏览平台已收录的模型和数据列表,并在创建开发机、任务或推理服务时一键挂载,无需重复下载海量数据,极大提升研发效率。
功能特性
- 开箱即用: 无需手动下载和上传 TB 级模型文件,挂载即用。
- 高速访问: 数据存储于高性能存储集群,提供高带宽低延迟的读取能力。
- 节省成本: 无需占用用户的云盘或共享存储空间,直接挂载为只读路径。
- 持续更新: 平台团队定期跟进社区动态,更新热门模型和数据集。
浏览公共数据
在控制台左侧导航栏选择公共数据,即可进入列表页面。
页面展示了所有可用的公共数据资源,包含以下信息:
- 名称:数据或模型的名称。
- 类型:模型(Model)或数据集(Dataset)。
- 来源:如 HuggingFace、ModelScope 等。
- 路径:数据在挂载后的相对路径。
- 简介:数据的简要说明。
- 可用区:该数据支持的可用区(目前仅支持广东B、宁夏B、北京D)。
挂载公共数据
在创建「开发机」、「任务」或「推理服务」时,在存储配置区域勾选挂载公共数据即可。
注意
该选项仅在所选算力规格位于支持的可用区(如广东B、宁夏B、北京D)时出现。
访问数据
挂载成功后,公共数据将以只读方式挂载到容器内的 /infini-data/ 目录下。
您可以在终端或代码中直接访问。
bash
ls -alht /infini-data/在 PyTorch 或 Transformers 中加载模型示例:
python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "/infini-data/models/llama-3-8b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)