AIStudio SSH 公钥管理,一处配置,处处可用AIStudio SSH 公钥管理,一处配置,处处可用 ,只为更佳开发体验如何配置
Skip to content

开发机常见问题排查指南

以下是使用智算云平台开发机时可能遇到的常见问题及解决方案。

创建与配置问题

开发机创建失败

可能原因

  • 资源不足导致任务排队,排队超时后仍无法获得资源。
  • 网络连接异常。
  • 系统内部错误。

解决方案

  1. 排队超时问题,可稍后重试。
  2. 更换资源池,重新创建开发机。
    • 如使用包年包月资源,可在选择资源池后查看「占用情况」与「负载排队情况」,帮助您选择合适的资源池。
    • 如使用弹性资源,可在选择负载规格时刷新库存状态。
  3. 如持续失败,请联系技术支持。

如何变更开发机配置?

解决方案

  • 使用「改配」功能调整 CPU、GPU、内存、容器镜像等配置。详见变更开发机配置
  • 改配后开发机会经历:
    1. 清理中状态(系统盘数据可选择保留或清理;使用 Docker 功能的开发机无法保存内部容器与容器镜像)
    2. 重新部署流程
  • 云盘(/datadisk)数据不受影响。
  • 高性能共享存储(/mnt/public)数据不受影响。

登录与连接问题

无法通过 SSH 连接开发机

可能原因

  • 开发机未处于「运行中」状态。
  • SSH 端口或 IP 地址错误。
  • SSH 密钥或密码配置错误。
  • 本地网络限制(公司、学校的防火墙限制,或本地安全软件)。

解决方案

  1. 确认开发机状态为「运行中」。
  2. 从开发机详情页复制正确 SSH 命令(含端口)。
  3. 检查认证方式:
    • 密码认证:确认密码正确
    • 密钥认证:确认 SSH 公钥已添加。建议使用平台的密钥管理功能,统一为开发机注入 SSH 公钥。
  4. 检查网络连通性:nc -vz <开发机IP> <SSH端口>
  5. 使用详细日志排查:ssh -vv -p <端口> root@<开发机IP>

忘记 SSH 登录密码

解决方案

  • 创建者可在详情页点击「修改密码」重置。
  • 密码修改后立即生效,无需重启。

SSH 密码认证失败次数过多被锁定

问题:错误密码输入 3 次后,10 分钟内无法使用密码登录。

解决方案

  • 等待 10 分钟后重试。
  • 或通过 Web Terminal 登录,添加 SSH 公钥使用密钥认证。
  • 使用平台的密钥管理功能,统一为开发机注入 SSH 公钥(重启后生效)。

存储与文件传输问题

系统盘空间不足

问题:开发机系统盘占用率过高将发出警告。系统盘占用超过 50GiB 时,开发机将进入安全模式,此时仅能保证 Web Terminal 可连接。

解决方案

  • 清理无用文件:sudo apt-get cleanrm -rf ~/.cache/*
  • (如有云盘)迁移大文件至云盘:mv <大文件> /datadisk/
  • (如有共享存储)迁移大文件至共享存储:mv <大文件> /mnt/public/

清理后请重启开发机。

NOTE

仅在创建开发机时可扩容云盘。如需购买共享存储,请联系无问芯穹

运行与性能问题

开发机性能不足

解决方案

  • 通过「改配」升级到 GPU、CPU、内存更高的算力规格。详见变更开发机配置
  • 优化流程:
    • 监控 GPU:nvidia-smi
    • 分析占用:htop

开发机突然无法访问

可能原因

  • (如使用弹性资源)账户余额不足导致停机
  • 网络连接问题

解决方案

  1. 检查余额并充值
  2. 在控制台查看开发机状态
  3. 如已停机,重新启动

环境与软件问题

无法通过 Pip 下载 Pytorch

在国内访问官方的 PyTorch 下载链接可能会遇到速度慢或无法访问的问题。为了解决这一问题,可以使用国内的镜像源来安装 PyTorch。

阿里云提供了 PyTorch 的镜像源,可以通过以下命令进行安装。

shell
pip3 install torch==2.4.1 torchvision torchaudio -f https://mirrors.aliyun.com/pytorch-wheels/cu121/

TIP

注意使用 -f 选项,而不是使用 --index-url

没有 CUDA 环境,没有 nvcc

可能原因

  • 如使用 NGC 镜像,可能是环境变量问题。开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 CUDA。
  • 镜像中已安装 Pytorch,但不含系统级 CUDA。

解决方案

  • 通过在 Web Terminal 与 SSH 会话中执行 env | grep PATH,观察环境变量差异并修改。
  • 请注意区分 Pytorch 自带的 CUDA 与系统级 CUDA。
  • 部分框架/应用要求系统级 CUDA(例如 DeepSpeed)。请遵照 Nvdia 官方指引安装 CUDA 环境。
可参考以下教程:

无法使用 Conda 命令

可能原因

  • Conda 未初始化
  • 环境变量未配置

解决方案

开发机在 Web Terminal 与本地 SSH 连接中环境 PATH 环境变量可能有差异,导致无法找到 conda。

请按照开发机 Conda 文档指引使用。

无法激活 Conda 环境

问题conda activate base 提示需先运行 conda init

解决方案

  1. 初始化:conda init
  2. 重启终端或执行:source ~/.bashrc

如何保存开发机环境和数据?

解决方案

  • 系统盘(/)和云盘(/datadisk)数据自动保存
  • 使用 Git 管理重要代码
  • 创建自定义镜像保存环境配置。可前往镜像中心,将当前运行中的开发机保存为镜像(保存镜像时请避免在开发机中频繁读写)。

如何科学上网?

解决方案

智算云平台不提供科学上网方式。您可以自行寻找第三方代理服务或其他解决方案。以下仅介绍部分可选方案:

Huggingface

在中国大陆地区可以使用 Huggingface 镜像站 https://hf-mirror.com。在开发机(或 AICoder) 中下载模型时,可以使用以下工具:

  • huggingface-cli

    shell
    pip install -U huggingface_hub
    # 设置环境变量
    export HF_ENDPOINT=https://hf-mirror.com
    # 建议通过环境变量 HF_HUB_CACHE 修改 Huggingface 缓存路径为非开发机系统盘,比如云盘或共享存储
    export HF_HUB_CACHE=/mnt/public/models # 请注意开发机是否已挂载了共享存储
    #export HF_HUB_CACHE=/datadisk/models # 请注意开发机是否已挂载了云盘
    # 下载模型
    huggingface-cli download --resume-download gpt2 --local-dir gpt2
    # 下载数据集
    huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
  • hfd.sh 脚本

    shell
    # 下载脚本
    wget https://hf-mirror.com/hfd/hfd.sh
    chmod a+x hfd.sh
    # 设置环境变量
    export HF_ENDPOINT=https://hf-mirror.com
    # 下载模型
    ./hfd.sh gpt2
    # 下载数据集
    ./hfd.sh wikitext --dataset

更多详细用法请访问 如何快速下载 huggingface 模型——全方法总结

GitHub

在中国大陆地区可以使用第三方 GitHub 加速服务。

获取 https 仓库地址后,添加加速服务前缀,发起 git clone:

shell
git clone https://ghfast.top/https://github.com/redis/redis

NOTE

以上加速服务的域名有可能因被封失效,您可以访问 https://ghproxy.link/ 获取最新可用域名。

可参考以下教程:

应用问题

无法安装 Ollama

可能原因

  • Ollama 安装过程中需要从 GitHub 下载数据。

解决方案

通过 GitHub 加速服务 Ollama Release 页面获取指定版本安装包,手动安装:

shell
curl -L https://ghfast.top/https://github.com/ollama/ollama/releases/download/v0.6.2/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

其他安装步骤可参考 Ollama Manual install instructions

NOTE

不支持通过 systemd 添加为启动服务。

Web 应用预览无法访问

可能原因

  • 应用未监听配置端口
  • 未绑定 0.0.0.0

解决方案

  1. 确认端口一致(2000-65000)
  2. 确保绑定 0.0.0.0 而非 127.0.0.1
  3. 检查运行状态:netstat -tulpn | grep <端口号>
  4. 本地验证:curl localhost:<应用端口>

详见预览开发机上运行的 Web 应用

Docker 相关问题

无法使用 Docker 命令

可能原因

  • 未启用 Docker 功能

解决方案

  • 通过「改配」启用 Docker 容器功能(开发机会重启)。详见变更开发机配置
  • 验证服务:docker info

无法保存开发机内 Docker 容器与镜像

可能原因

  • AIStudio 开发机的 Docker 容器功能不支持持久化保存开发机内部的 Docker 容器与镜像。

解决方案

  • 可将容器镜像存入 AIStudio 镜像中心的租户镜像仓库中。

其他问题

如何在 VS Code 中远程连接开发机?

解决方案

  1. 安装 Remote - SSH 扩展
  2. 配置 SSH(端口和认证方式)
  3. 连接后直接编辑开发机文件
可参考以下教程: