极值算力实例常见问题排查指南
以下是使用智算云平台极值算力实例时可能遇到的常见问题及解决方案。
创建与配置问题
极值算力实例创建失败
可能原因:
- 资源不足导致。
- 网络连接异常。
- 系统内部错误。
解决方案:
- 库存资源不足问题,可稍后重试。
- 更换可用区,重新创建极值算力实例。
- 如持续失败,请联系技术支持。
如何变更极值算力实例配置?
解决方案:
- 使用「改配」功能调整 CPU、GPU、内存、容器镜像等配置。
- 改配后极值算力实例会经历:
- 清理中状态(系统盘数据可选择保留或清理)
- 重新部署流程
- 如果已挂载高性能共享存储,高性能共享存储数据不受影响。
登录与连接问题
无法通过 SSH 连接极值算力实例
可能原因:
- 极值算力实例未处于「运行中」状态。
- SSH 端口或 IP 地址错误。
- SSH 密钥或密码配置错误。
- 本地网络限制(公司、学校的防火墙限制,或本地安全软件)。
- 极值容器实例使用的镜像缺少必要基础组件,常见报错:"您的镜像中缺少 openssh-server,您正在连接到一个功能受限的 SSH 服务器,无法用作端口转发/scp 文件传输等用途,仅可用于 SSH 命令行和 sftp 文件传输"。
解决方案:
- 确认极值算力实例状态为「运行中」。
- 从极值算力实例详情页复制正确 SSH 命令(含端口)。
- 检查认证方式:
- 密码认证:确认密码正确
- 密钥认证:确认 SSH 公钥已添加。建议使用平台的密钥管理功能,统一为极值算力实例注入 SSH 公钥。
- 检查网络连通性:
nc -vz <极值算力实例IP> <SSH端口> - 使用详细日志排查:
ssh -vv -p <端口> root@<极值算力实例IP> - 如果错误消息提示缺少 openssh-server 或其他组件,请安装平台要求的镜像基础组件,
- 在极值算力实例中直接安装基础组件,重启开发机(仅针对当前实例作一次性修复):
- 在镜像中安装,重启实例,选择更新后的新版镜像(永久修复自定义镜像,推荐) 详见镜像基础组件要求,或更换为其他符合要求的镜像。
忘记 SSH 登录密码
解决方案:
- 创建者可在详情页点击「修改密码」重置。
- 密码修改后立即生效,无需重启。
SSH 密码认证失败次数过多被锁定
问题:错误密码输入 3 次后,10 分钟内无法使用密码登录。
解决方案:
- 等待 10 分钟后重试。
- 或通过 Web Terminal 登录,添加 SSH 公钥使用密钥认证。
- 使用平台的密钥管理功能,统一为极值算力实例注入 SSH 公钥(重启后生效)。
存储与文件传输问题
系统盘空间不足
问题:极值算力实例系统盘占用率过高将发出警告。系统盘占用超过 100GiB 时,极值算力实例将进入安全模式,此时仅能保证 Web Terminal 可连接。
解决方案:
- 清理无用文件:
sudo apt-get clean和rm -rf ~/.cache/* - (如有共享存储)迁移大文件至共享存储:
mv <大文件> /mnt/public/
清理后请重启极值算力实例。
运行与性能问题
极值算力实例性能不足
解决方案:
- 通过「改配」升级到 GPU、CPU、内存更高的算力规格。
- 优化流程:
- 监控 GPU:
nvidia-smi - 分析占用:
htop
- 监控 GPU:
极值算力实例突然无法访问
可能原因:
- 极值算力实例受库存资源不足影响中断关机
- 账户余额不足导致停机
- 网络连接问题
解决方案:
- 检查余额并充值
- 在控制台查看极值算力实例状态
- 如已停机,重新启动
环境与软件问题
无法通过 Pip 下载 Pytorch
在国内访问官方的 PyTorch 下载链接可能会遇到速度慢或无法访问的问题。为了解决这一问题,可以使用国内的镜像源来安装 PyTorch。
阿里云提供了 PyTorch 的镜像源,可以通过以下命令进行安装。
pip3 install torch==2.4.1 torchvision torchaudio -f https://mirrors.aliyun.com/pytorch-wheels/cu121/提示
注意使用 -f 选项,而不是使用 --index-url。
没有 CUDA 环境,没有 nvcc
可能原因:
- 如使用 NGC 镜像,可能是环境变量问题。极值算力实例在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 CUDA。
- 镜像中已安装 Pytorch,但不含系统级 CUDA。
解决方案:
- 通过在 Web Terminal 与 SSH 会话中执行
env | grep PATH,观察环境变量差异并修改。 - 请注意区分 Pytorch 自带的 CUDA 与系统级 CUDA。
- 部分框架/应用要求系统级 CUDA(例如 DeepSpeed)。请遵照 Nvidia 官方指引安装 CUDA 环境,或参考平台提供的 Dockerfile 示例:
无法使用 Conda 命令
可能原因:
- Conda 未初始化
- 环境变量未配置
解决方案:
极值算力实例在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 conda。
可尝试前往 Web Terminal 运行初始化命令:conda init --system
无法激活 Conda 环境
问题:conda activate base 提示需先运行 conda init
解决方案:
初始化 Conda 环境。在开发机中,强烈建议使用
conda init --system替代,将修改持久化到系统级的配置文件中。shell# 初始化 Conda(强烈建议在 conda init 时添加 --system) conda init --system重启终端。
如何保存极值算力实例环境和数据?
平台为所有极值算力实例系统盘提供 100 GiB 的免费持久化存储空间。如果持久化存储空间不足,可购买高性能共享存储作为扩充存储。
使用建议:
平台支持多种持久化存储,合理规划数据存储位置能够提升开发效率:
代码仓库:使用 Git 管理代码是最佳实践。将代码托管至 GitHub、GitLab 等平台,通过版本控制保证代码安全与协作效率。
数据文件(数据集、模型、Checkpoint):
- 优先存储至共享高性能存储(如
/mnt/public),提供更大容量和更好的 I/O 性能。 - 系统盘(rootfs,挂载在
/)虽支持持久化,但容量限制为 100 GiB,建议仅存放环境配置和小型文件。
- 优先存储至共享高性能存储(如
软件环境与依赖:使用容器镜像保存软件环境是更可靠的方案。可前往镜像中心,将当前运行中的极值算力实例保存为自定义镜像(保存镜像时请避免在极值算力实例中频繁读写)。相比在单个极值算力实例系统盘上手动安装依赖,使用容器镜像能够:
- 确保环境一致性和可复现性
- 快速部署到新极值算力实例
- 避免因改配时选择「保留系统盘数据」为「否」而导致环境丢失
警告
极值算力实例在改配时可选择将系统盘(rootfs)恢复为干净状态。若您依赖系统盘存储关键数据或环境配置,请务必在改配前备份,或使用上述推荐的持久化方案。
如何科学上网?
解决方案:
智算云平台不提供科学上网方式。您可以自行寻找第三方代理服务或其他解决方案。以下仅介绍部分可选方案:
Huggingface
在中国大陆地区可以使用 Huggingface 镜像站 https://hf-mirror.com。在极值算力实例(或 AICoder) 中下载模型时,可以使用以下工具:
huggingface-clishellpip install -U huggingface_hub # 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com # 建议通过环境变量 HF_HUB_CACHE 修改 Huggingface 缓存路径为非极值算力实例系统盘,比如云盘或共享存储 export HF_HUB_CACHE=/mnt/public/models # 请注意极值算力实例是否已挂载了共享存储 #export HF_HUB_CACHE=/datadisk/models # 请注意极值算力实例是否已挂载了云盘 # 下载模型 huggingface-cli download --resume-download gpt2 --local-dir gpt2 # 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitexthfd.sh脚本shell# 下载脚本 wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh # 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com # 下载模型 ./hfd.sh gpt2 # 下载数据集 ./hfd.sh wikitext --dataset
更多详细用法请访问 如何快速下载 huggingface 模型——全方法总结。
GitHub
在中国大陆地区可以使用第三方 GitHub 加速服务。
获取 https 仓库地址后,添加加速服务前缀,发起 git clone:
git clone https://ghfast.top/https://github.com/redis/redis注意
以上加速服务的域名有可能因被封失效,您可以访问 https://ghproxy.link/ 获取最新可用域名。
应用问题
无法安装 Ollama
可能原因:
- 由于 Ollama 官方安装脚本下载会从 ollama.com 重定向到 GitHub,在国内网络环境下可能无法访问。
解决方案:
ModelScope 提供了 Ollama 的国内镜像,下载后无需网络即可完成安装,是最稳定可靠的安装方式。
安装依赖工具:
shellsudo apt update && sudo apt install -y pciutils lshw zstd安装 ModelScope CLI 并下载 Ollama 安装包:
shellpip install modelscope -U modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux --revision v0.14.1运行安装脚本:
shellcd ollama-linux chmod +x ollama-modelscope-install.sh ./ollama-modelscope-install.sh
安装完成后,即可使用 ollama 命令。
提示
- 智算云平台极值算力实例不支持通过 systemd 添加为启动服务。
- ModelScope 提供多个 Ollama 版本(如
v0.14.1、v0.13.0等),可通过--revision参数切换。版本可能略滞后于官方最新版,但通常保持较新。更多信息请访问 ModelScope Ollama 仓库。
Web 应用预览无法访问
可能原因:
- 应用未监听配置端口
- 未绑定
0.0.0.0
解决方案:
- 确认端口一致(2000-65000)
- 确保绑定
0.0.0.0而非127.0.0.1 - 检查运行状态:
netstat -tulpn | grep <端口号> - 本地验证:
curl localhost:<应用端口>
Docker 相关问题
无法使用 Docker 命令
可能原因:
- 未启用 Docker 功能
- 未启用 Docker Engine 服务
解决方案:
- 通过「改配」查看是否已启用 Docker 容器功能。如果未开启,则需要开启 Docker 容器,并确认改配(极值算力实例会重启)。
- 通过执行
dockerctl status查看 Docker Engine 是否运行。如果未运行,则执行dockerctl restart。
无法通过 docker system prune 删除极值算力实例内 Docker 容器与镜像
可能原因:
- Docker 容器功能不支持通过
docker system prune清除内部的 Docker 容器与镜像。
解决方案:
如果要在开机状态下清除容器和镜像,必须使用专用的 dockerctl 命令行工具。请依次执行以下命令:
dockerctl stop
dockerctl prune
dockerctl start其他问题
如何在 VS Code 中远程连接极值算力实例?
通过 VS Code 的 Remote - SSH 扩展连接极值算力实例,可获得完整的智能感知、代码导航、断点调试等功能,实现几乎本地般的开发体验。
解决方案:
- 安装 Remote - SSH 扩展
- 配置 SSH(端口和认证方式)
- 连接后直接编辑极值算力实例文件
详细配置步骤和高级功能(如代理设置、手动安装 VS Code Server 等)请参考开发机的 VS Code 远程开发文档,操作步骤与极值算力实例完全相同。