yanchang
yanchang
发布于 2025-05-05 / 9 阅读
0
0

服务器使用手册

[!TIP] 注意 总共有两台主机,两台都是ubuntu24.04
两台主机的名称分别是SDFMU, SDFMU2。 主要看清楚

主机(SDFMU)

[!IMPORTANT] 用户

  1. root用户, 密码:zhangyu

  2. bear用户, 密码:bear@2025

[!IMPORTANT]

  1. NVIDIA驱动: NVIDIA-SMI 550.120

  2. CUDA版本: cuda 12.1

  3. anaconda位置:/opt/anaconda3/ <---- 注意这里使用的是anaconda,下面一台主机使用的是miniconda

主机(SDFMU2)

[!IMPORTANT] 用户

  1. root用户, 密码:zhangyu

  2. bera用户, 密码:bear@2025 <----- !!! 注意用户名是bera不是bear

[!IMPORTANT]

  1. NVIDIA驱动: NVIDIA-SMI 578.51.03

  2. CUDA版本: cuda12.1cuda12.9(默认), 双版本

  3. miniconda位置:/opt/miniconda3/

主机(SDFMU3)

[!IMPORTANT] 用户

  1. root用户, 密码:zhangyu

  2. bear用户, 密码:bear@2025

  3. xiongquanqig用户

  4. yanchang用户

[!IMPORTANT]

  1. NVIDIA驱动: NVIDIA-SMI 550.120

  2. CUDA版本: cuda 12.1

  3. anaconda位置:/opt/anaconda3/ <---- 注意这里使用的是anaconda,下面一台主机使用的是miniconda

SDFMU3添加赋予用户conda权限

# 将用户添加到anaconda组
sudo usermod -aG anaconda <username>

# 切换到指定用户
su <username)

# 执行init环境
/opt/anaconda3/bin/conda init

两台主机的通用配置

用户管理

非必要不要给root权限 !!!

  1. 创建用户

    1. sudo useradd -u <uid> -m -s /bin/bash <user_name>

    2. -u:指定用户的uid,建议uid>1000,不要和其它用户冲突

    3. -m:给用户在/home目录下创建属于自己的家目录

    4. -s:指定自己喜欢的默认脚本,默认使用/bin/bash也可以修改为/bin/zsh

  2. 权限管理

conda命令的使用

  1. 检查是否可以运行conda

  2. 如果运行失败,或没有找到conda命令

  3. /opt/miniconda3/bin/conda init命令会自动为你的文件进行初始化

CUDA管理

  1. 将下面内容放到你的~/.bashrc文件中

    # 定义一个切换 CUDA 版本的函数
    switch_cuda() {
        local desired_version=$1
        # 假设你的 CUDA 版本都安装在 /usr/local/cuda-X.Y 格式的路径下
        local cuda_path="/usr/local/cuda-${desired_version}"
    
        # 检查目标版本的 CUDA 目录是否存在
        if [ -d "${cuda_path}" ]; then
            export CUDA_HOME="${cuda_path}"
            export CUDA_PATH="${CUDA_HOME}" # 有些应用可能也看这个变量
    
            # 从 PATH 和 LD_LIBRARY_PATH 中移除旧的 CUDA 路径 (避免冲突)
            # (注意: 这个移除逻辑可能需要根据你的具体 PATH/LD_LIBRARY_PATH 结构调整)
            export PATH=$(echo "$PATH" | awk -v RS=':' -v ORS=':' '!/\/usr\/local\/cuda-[0-9.]+\/bin/' | sed 's/:$//')
            export LD_LIBRARY_PATH=$(echo "$LD_LIBRARY_PATH" | awk -v RS=':' -v ORS=':' '!/\/usr\/local\/cuda-[0-9.]+\/lib64/' | sed 's/:$//')
    
            # 添加新版本的 CUDA 路径
            export PATH="${CUDA_HOME}/bin:${PATH}"
            # 确保 LD_LIBRARY_PATH 非空再加冒号
            if [ -z "$LD_LIBRARY_PATH" ]; then
                export LD_LIBRARY_PATH="${CUDA_HOME}/lib64"
            else
                export LD_LIBRARY_PATH="${CUDA_HOME}/lib64:${LD_LIBRARY_PATH}"
            fi
            echo "Switched to CUDA ${desired_version}"
            echo "CUDA_HOME is now: ${CUDA_HOME}"
            echo "Verifying nvcc version:"
            nvcc --version
        else
            echo "Error: CUDA version ${desired_version} not found at ${cuda_path}"
        fi  
    }
    # (可选) 在启动时设置一个默认的 CUDA 版本   # switch_cuda 12.1
    # (可选) 创建别名方便切换   
    alias cuda12.1="switch_cuda 12.1"  # 假设你的 "12.9" 版本在 /usr/local/cuda-12.9 (请根据实际情况修改)    
    alias cuda12.9="switch_cuda 12.9"


评论