开发机常见问题排查指南
以下是使用智算云平台开发机时可能遇到的常见问题及解决方案。
创建与配置问题
开发机创建失败
可能原因:
- 资源不足导致任务排队,排队超时后仍无法获得资源。
- 网络连接异常。
- 系统内部错误。
解决方案:
- 排队超时问题,可稍后重试。
- 更换资源池,重新创建开发机。
- 如使用包年包月资源,可在选择资源池后查看「占用情况」与「负载排队情况」,帮助您选择合适的资源池。
- 如使用弹性资源,可在选择负载规格时刷新库存状态。
- 如持续失败,请联系技术支持。
如何变更开发机配置?
解决方案:
- 使用「改配」功能调整 CPU、GPU、内存、容器镜像等配置。详见变更开发机配置。
- 改配后开发机会经历:
- 清理中状态(系统盘数据可选择保留或清理;使用 Docker 功能的开发机无法保存内部容器与容器镜像)
- 重新部署流程
- 云盘(
/datadisk
)数据不受影响。 - 高性能共享存储(
/mnt/public
)数据不受影响。
登录与连接问题
无法通过 SSH 连接开发机
可能原因:
- 开发机未处于「运行中」状态。
- SSH 端口或 IP 地址错误。
- SSH 密钥或密码配置错误。
- 本地网络限制(公司、学校的防火墙限制,或本地安全软件)。
解决方案:
- 确认开发机状态为「运行中」。
- 从开发机详情页复制正确 SSH 命令(含端口)。
- 检查认证方式:
- 密码认证:确认密码正确
- 密钥认证:确认 SSH 公钥已添加。建议使用平台的密钥管理功能,统一为开发机注入 SSH 公钥。
- 检查网络连通性:
nc -vz <开发机IP> <SSH端口>
- 使用详细日志排查:
ssh -vv -p <端口> root@<开发机IP>
忘记 SSH 登录密码
解决方案:
- 创建者可在详情页点击「修改密码」重置。
- 密码修改后立即生效,无需重启。
SSH 密码认证失败次数过多被锁定
问题:错误密码输入 3 次后,10 分钟内无法使用密码登录。
解决方案:
- 等待 10 分钟后重试。
- 或通过 Web Terminal 登录,添加 SSH 公钥使用密钥认证。
- 使用平台的密钥管理功能,统一为开发机注入 SSH 公钥(重启后生效)。
存储与文件传输问题
系统盘空间不足
问题:开发机系统盘占用率过高将发出警告。系统盘占用超过 50GiB 时,开发机将进入安全模式,此时仅能保证 Web Terminal 可连接。
解决方案:
- 清理无用文件:
sudo apt-get clean
和rm -rf ~/.cache/*
- (如有云盘)迁移大文件至云盘:
mv <大文件> /datadisk/
- (如有共享存储)迁移大文件至共享存储:
mv <大文件> /mnt/public/
清理后请重启开发机。
NOTE
仅在创建开发机时可扩容云盘。如需购买共享存储,请联系无问芯穹。
运行与性能问题
开发机性能不足
解决方案:
- 通过「改配」升级到 GPU、CPU、内存更高的算力规格。详见变更开发机配置。
- 优化流程:
- 监控 GPU:
nvidia-smi
- 分析占用:
htop
- 监控 GPU:
开发机突然无法访问
可能原因:
- (如使用弹性资源)账户余额不足导致停机
- 网络连接问题
解决方案:
- 检查余额并充值
- 在控制台查看开发机状态
- 如已停机,重新启动
环境与软件问题
无法通过 Pip 下载 Pytorch
在国内访问官方的 PyTorch 下载链接可能会遇到速度慢或无法访问的问题。为了解决这一问题,可以使用国内的镜像源来安装 PyTorch。
阿里云提供了 PyTorch 的镜像源,可以通过以下命令进行安装。
pip3 install torch==2.4.1 torchvision torchaudio -f https://mirrors.aliyun.com/pytorch-wheels/cu121/
TIP
注意使用 -f
选项,而不是使用 --index-url
。
没有 CUDA 环境,没有 nvcc
可能原因:
- 如使用 NGC 镜像,可能是环境变量问题。开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 CUDA。
- 镜像中已安装 Pytorch,但不含系统级 CUDA。
解决方案:
- 通过在 Web Terminal 与 SSH 会话中执行
env | grep PATH
,观察环境变量差异并修改。 - 请注意区分 Pytorch 自带的 CUDA 与系统级 CUDA。
- 部分框架/应用要求系统级 CUDA(例如 DeepSpeed)。请遵照 Nvdia 官方指引安装 CUDA 环境。
无法使用 Conda 命令
可能原因:
- Conda 未初始化
- 环境变量未配置
解决方案:
开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 conda。
请按照开发机 Conda 文档指引使用。
无法激活 Conda 环境
问题:conda activate base
提示需先运行 conda init
解决方案:
- 初始化:
conda init
- 重启终端或执行:
source ~/.bashrc
如何保存开发机环境和数据?
解决方案:
- 系统盘(
/
)和云盘(/datadisk
)数据自动保存 - 使用 Git 管理重要代码
- 创建自定义镜像保存环境配置。可前往镜像中心,将当前运行中的开发机保存为镜像(保存镜像时请避免在开发机中频繁读写)。
如何科学上网?
解决方案:
智算云平台不提供科学上网方式。您可以自行寻找第三方代理服务或其他解决方案。以下仅介绍部分可选方案:
Huggingface
在中国大陆地区可以使用 Huggingface 镜像站 https://hf-mirror.com
。在开发机(或 AICoder) 中下载模型时,可以使用以下工具:
huggingface-cli
shellpip install -U huggingface_hub # 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com # 建议通过环境变量 HF_HUB_CACHE 修改 Huggingface 缓存路径为非开发机系统盘,比如云盘或共享存储 export HF_HUB_CACHE=/mnt/public/models # 请注意开发机是否已挂载了共享存储 #export HF_HUB_CACHE=/datadisk/models # 请注意开发机是否已挂载了云盘 # 下载模型 huggingface-cli download --resume-download gpt2 --local-dir gpt2 # 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
hfd.sh
脚本shell# 下载脚本 wget https://hf-mirror.com/hfd/hfd.sh chmod a+x hfd.sh # 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com # 下载模型 ./hfd.sh gpt2 # 下载数据集 ./hfd.sh wikitext --dataset
更多详细用法请访问 如何快速下载 huggingface 模型——全方法总结。
GitHub
在中国大陆地区可以使用第三方 GitHub 加速服务。
获取 https 仓库地址后,添加加速服务前缀,发起 git clone:
git clone https://ghfast.top/https://github.com/redis/redis
NOTE
以上加速服务的域名有可能因被封失效,您可以访问 https://ghproxy.link/ 获取最新可用域名。
应用问题
无法安装 Ollama
可能原因:
- Ollama 安装过程中需要从 GitHub 下载数据。
解决方案:
通过 GitHub 加速服务 Ollama Release 页面获取指定版本安装包,手动安装:
curl -L https://ghfast.top/https://github.com/ollama/ollama/releases/download/v0.6.2/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
其他安装步骤可参考 Ollama Manual install instructions。
NOTE
不支持通过 systemd 添加为启动服务。
Web 应用预览无法访问
可能原因:
- 应用未监听配置端口
- 未绑定
0.0.0.0
解决方案:
- 确认端口一致(2000-65000)
- 确保绑定
0.0.0.0
而非127.0.0.1
- 检查运行状态:
netstat -tulpn | grep <端口号>
- 本地验证:
curl localhost:<应用端口>
Docker 相关问题
无法使用 Docker 命令
可能原因:
- 未启用 Docker 功能
解决方案:
- 通过「改配」启用 Docker 容器功能(开发机会重启)。详见变更开发机配置。
- 验证服务:
docker info
无法保存开发机内 Docker 容器与镜像
可能原因:
- AIStudio 开发机的 Docker 容器功能不支持持久化保存开发机内部的 Docker 容器与镜像。
解决方案:
- 可将容器镜像存入 AIStudio 镜像中心的租户镜像仓库中。
其他问题
如何在 VS Code 中远程连接开发机?
解决方案:
- 安装 Remote - SSH 扩展
- 配置 SSH(端口和认证方式)
- 连接后直接编辑开发机文件