开发机常见问题排查指南

以下是使用智算云平台开发机时可能遇到的常见问题及解决方案。

创建与配置问题

开发机创建失败

可能原因：

资源不足导致任务排队，排队超时后仍无法获得资源。
网络连接异常。
系统内部错误。

解决方案：

排队超时问题，可稍后重试。
更换资源池，重新创建开发机。
- 如使用包年包月资源，可在选择资源池后查看「占用情况」与「负载排队情况」，帮助您选择合适的资源池。
- 如使用弹性资源，可在选择负载规格时刷新库存状态。
如持续失败，请联系技术支持。

注意

什么是占用情况和负载排队情况？

在 AI/ML 工作负载中，GPU 资源的分配通常具有特定的需求。例如：某些工作负载要求在一组节点上运行，每节点必须提供 8 个空闲 GPU，而非在多个节点上分散的 GPU 资源。智算云平台的占用情况视图提供资源池各个节点 GPU 占用的实时视图，而工作负载优先级调度功能支持允许查看当前工作负载排队等待资源的情况，超级管理员通过拖拽高优先级负载至优先调度队列，可确保关键任务优先获得 GPU 资源。详见 GPU 使用视图与工作负载队列管理。

如何变更开发机配置？

解决方案：

使用「改配」功能调整 CPU、GPU、内存、容器镜像等配置。详见变更开发机配置。
改配后开发机会经历：
1. 清理中状态（系统盘数据可选择保留或清理；使用 Docker 功能的开发机无法保存内部容器与容器镜像）
2. 重新部署流程
云盘（/datadisk）数据不受影响。
高性能共享存储（/mnt/public）数据不受影响。

登录与连接问题

无法通过 SSH 连接开发机

可能原因：

开发机未处于「运行中」状态。
SSH 端口或 IP 地址错误。
SSH 密钥或密码配置错误。
本地网络限制（公司、学校的防火墙限制，或本地安全软件）。

解决方案：

确认开发机状态为「运行中」。
从开发机详情页复制正确 SSH 命令（含端口）。
检查认证方式：
- 密码认证：确认密码正确
- 密钥认证：确认 SSH 公钥已添加。建议使用平台的密钥管理功能，统一为开发机注入 SSH 公钥。
检查网络连通性：nc -vz <开发机IP> <SSH端口>
使用详细日志排查：ssh -vv -p <端口> root@<开发机IP>

忘记 SSH 登录密码

解决方案：

创建者可在详情页点击「修改密码」重置。
密码修改后立即生效，无需重启。

SSH 密码认证失败次数过多被锁定

问题：错误密码输入 3 次后，10 分钟内无法使用密码登录。

解决方案：

等待 10 分钟后重试。
或通过 Web Terminal 登录，添加 SSH 公钥使用密钥认证。
使用平台的密钥管理功能，统一为开发机注入 SSH 公钥（重启后生效）。

存储与文件传输问题

系统盘空间不足

问题：开发机系统盘占用率过高将发出警告。系统盘占用超过 50GiB 时，开发机将进入安全模式，此时仅能保证 Web Terminal 可连接。

解决方案：

清理无用文件：sudo apt-get clean 和 rm -rf ~/.cache/*
（如有云盘）迁移大文件至云盘：mv <大文件> /datadisk/
（如有共享存储）迁移大文件至共享存储：mv <大文件> /mnt/public/

清理后请重启开发机。

注意

仅在创建开发机时可扩容云盘。如需购买共享存储，请联系商务或售后服务。

运行与性能问题

开发机性能不足

解决方案：

通过「改配」升级到 GPU、CPU、内存更高的算力规格。详见变更开发机配置。
优化流程：
- 监控 GPU：nvidia-smi
- 分析占用：htop

开发机突然无法访问

可能原因：

（如使用弹性资源）账户余额不足导致停机
网络连接问题

解决方案：

检查余额并充值
在控制台查看开发机状态
如已停机，重新启动

环境与软件问题

无法通过 Pip 下载 Pytorch

在国内访问官方的 PyTorch 下载链接可能会遇到速度慢或无法访问的问题。为了解决这一问题，可以使用国内的镜像源来安装 PyTorch。

阿里云提供了 PyTorch 的镜像源，可以通过以下命令进行安装。

shell

pip3 install torch==2.4.1 torchvision torchaudio -f https://mirrors.aliyun.com/pytorch-wheels/cu121/

提示

注意使用 -f 选项，而不是使用 --index-url。

没有 CUDA 环境，没有 nvcc

可能原因：

如使用 NGC 镜像，可能是环境变量问题。开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异，导致无法找到 CUDA。
镜像中已安装 Pytorch，但不含系统级 CUDA。

解决方案：

通过在 Web Terminal 与 SSH 会话中执行 env | grep PATH，观察环境变量差异并修改。
请注意区分 Pytorch 自带的 CUDA 与系统级 CUDA。
部分框架/应用要求系统级 CUDA（例如 DeepSpeed）。请遵照 Nvdia 官方指引安装 CUDA 环境。

可参考以下教程：

无法使用 Conda 命令

可能原因：

Conda 未初始化
环境变量未配置

解决方案：

开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异，导致无法找到 conda。

请按照开发机 Conda 文档指引使用。

无法激活 Conda 环境

问题：conda activate base 提示需先运行 conda init

解决方案：

初始化 Conda 环境。在开发机中，强烈建议使用 conda init --system 替代，将修改持久化到系统级的配置文件中。
shell
```
# 初始化 Conda（强烈建议在 conda init 时添加 --system）
conda init --system
```
重启终端。

如何保存开发机环境和数据？

解决方案：

系统盘（/）和云盘（/datadisk）数据自动保存
使用 Git 管理重要代码
创建自定义镜像保存环境配置。可前往镜像中心，将当前运行中的开发机保存为镜像（保存镜像时请避免在开发机中频繁读写）。

如何科学上网？

解决方案：

智算云平台不提供科学上网方式。您可以自行寻找第三方代理服务或其他解决方案。以下仅介绍部分可选方案：

Huggingface

在中国大陆地区可以使用 Huggingface 镜像站 https://hf-mirror.com。在开发机（或 AICoder）中下载模型时，可以使用以下工具：

huggingface-cli

shell

pip install -U huggingface_hub
# 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
# 建议通过环境变量 HF_HUB_CACHE 修改 Huggingface 缓存路径为非开发机系统盘，比如云盘或共享存储
export HF_HUB_CACHE=/mnt/public/models # 请注意开发机是否已挂载了共享存储
#export HF_HUB_CACHE=/datadisk/models # 请注意开发机是否已挂载了云盘
# 下载模型
huggingface-cli download --resume-download gpt2 --local-dir gpt2
# 下载数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext

hfd.sh 脚本

shell

# 下载脚本
wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh
# 设置环境变量
export HF_ENDPOINT=https://hf-mirror.com
# 下载模型
./hfd.sh gpt2
# 下载数据集
./hfd.sh wikitext --dataset

更多详细用法请访问如何快速下载 huggingface 模型——全方法总结。

GitHub

在中国大陆地区可以使用第三方 GitHub 加速服务。

获取 https 仓库地址后，添加加速服务前缀，发起 git clone：

shell

git clone https://ghfast.top/https://github.com/redis/redis

注意

以上加速服务的域名有可能因被封失效，您可以访问 https://ghproxy.link/ 获取最新可用域名。

可参考以下教程：

应用问题

无法安装 Ollama

可能原因：

Ollama 安装过程中需要从 GitHub 下载数据。

解决方案：

通过 GitHub 加速服务 Ollama Release 页面获取指定版本安装包，手动安装：

shell

curl -L https://ghfast.top/https://github.com/ollama/ollama/releases/download/v0.6.2/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

其他安装步骤可参考 Ollama Manual install instructions。

注意

不支持通过 systemd 添加为启动服务。

Web 应用预览无法访问

可能原因：

应用未监听配置端口
未绑定 0.0.0.0

解决方案：

确认端口一致（2000-65000）
确保绑定 0.0.0.0 而非 127.0.0.1
检查运行状态：netstat -tulpn | grep <端口号>
本地验证：curl localhost:<应用端口>

详见预览开发机上运行的 Web 应用。

Docker 相关问题

无法使用 Docker 命令

可能原因：

未启用 Docker 功能

解决方案：

通过「改配」启用 Docker 容器功能（开发机会重启）。详见变更开发机配置。
验证服务：docker info

无法保存开发机内 Docker 容器与镜像

可能原因：

AIStudio 开发机的 Docker 容器功能不支持持久化保存开发机内部的 Docker 容器与镜像。

解决方案：

可将容器镜像存入 AIStudio 镜像中心的租户镜像仓库中。

其他问题

如何在 VS Code 中远程连接开发机？

解决方案：

安装 Remote - SSH 扩展
配置 SSH（端口和认证方式）
连接后直接编辑开发机文件

可参考以下教程：

如何在开发机中安装和使用 Jupyter Lab ？

如果需要远程连接到开发机中的 Jupyter Lab，可以使用以下方案。

解决方案：

安装 Jupyter Lab：
- 使用 pip：python3 -m pip install jupyterlab
- 使用 conda：先初始化环境，创建虚拟环境，然后安装

启动 Jupyter Lab：

bash

jupyter lab --no-browser --ip 0.0.0.0 --port=9999 --allow-root

访问方式：
- Web 应用预览：配置开发机预览端口，启动时绑定 0.0.0.0
- SSH 端口转发：在本地配置端口转发访问远程 Jupyter Lab
- VS Code 集成：通过 Remote Kernel 在本地使用远程 GPU

详细教程：

开发机常见问题排查指南 ​

创建与配置问题 ​

开发机创建失败 ​

如何变更开发机配置？ ​

登录与连接问题 ​

无法通过 SSH 连接开发机 ​

忘记 SSH 登录密码 ​

SSH 密码认证失败次数过多被锁定 ​

存储与文件传输问题 ​

系统盘空间不足 ​

运行与性能问题 ​

开发机性能不足 ​

开发机突然无法访问 ​

环境与软件问题 ​

无法通过 Pip 下载 Pytorch ​

没有 CUDA 环境，没有 nvcc ​

无法使用 Conda 命令 ​

无法激活 Conda 环境 ​

如何保存开发机环境和数据？ ​

如何科学上网？ ​

Huggingface ​

GitHub ​

应用问题 ​

无法安装 Ollama ​

Web 应用预览无法访问 ​

Docker 相关问题 ​

无法使用 Docker 命令 ​

无法保存开发机内 Docker 容器与镜像 ​

其他问题 ​

如何在 VS Code 中远程连接开发机？ ​

如何在开发机中安装和使用 Jupyter Lab ？ ​

开发机常见问题排查指南

创建与配置问题

开发机创建失败

如何变更开发机配置？

登录与连接问题

无法通过 SSH 连接开发机

忘记 SSH 登录密码

SSH 密码认证失败次数过多被锁定

存储与文件传输问题

系统盘空间不足

运行与性能问题

开发机性能不足

开发机突然无法访问

环境与软件问题

无法通过 Pip 下载 Pytorch

没有 CUDA 环境，没有 nvcc

无法使用 Conda 命令

无法激活 Conda 环境

如何保存开发机环境和数据？

如何科学上网？

Huggingface

GitHub

应用问题

无法安装 Ollama

Web 应用预览无法访问

Docker 相关问题

无法使用 Docker 命令

无法保存开发机内 Docker 容器与镜像

其他问题

如何在 VS Code 中远程连接开发机？

如何在开发机中安装和使用 Jupyter Lab ？