注:本系列是实操中踩坑无数的经验总结,成文备考,分享避坑。

前言 

上一篇实现了用vmware虚拟机搭建旁路由网络,以适应搭建平台需要的复杂网络环境。本期就来完善deepin23系统下nvidia 驱动及CUDA的安装配置。

必须了解的前置知识点

apt软件源管理

Deepin官方软件源没有CUDA,要安装CUDA就必须增加相关软件源。而多种源混用,会造成系统软件版本升级不匹配,最终导致“爆炸”,系统崩溃。之前deepin25我就是这样搞崩了。所以理解Deepin系统apt软件源管理的方式就可以游刃有余。Deepin系统的软件源管理和Debian、Ubuntu基本一样。

apt软件源文件都在 /etc/apt 目录下,如下图:

理解了apt源管理的基本逻辑,就不会出现源“爆炸”的问题啦。每次要应用新增的源,就执行以下命令:

sudo apt update

效果如下图:

 

 如果要禁用相关源,就把该源文件改名或删除就对了,以nvidia为例如下图:

ok,到此就掌握了apt软件源管理的基本逻辑了,下面开始本期正题。 

NVIDIA驱动安装

Deepin23系统安装时可以选择是否安装nvidia闭源驱动的,如果当时没有安装,执行以下命令:

sudo apt install -y nvidia-driver

 查看GPU情况使用 nvidia-smi,如果没有安装,执行以下命令:

sudo apt install -y nvidia-smi

 

nvidia-detect 是一个用于检测 NVIDIA 显卡及其驱动状态的工具,需要安装的执行以下命令:

sudo apt install -y nvidia-detect

 

上图中错误提示是检测不到我操作系统的Debian版本,因为是Deepin啊,这应该系统安装时没有选择闭源驱动的缘故,但目前没有发现异常,就不管了。(那位看官踩过这个坑,请留言多指教,谢谢啦) 

CUDA安装

CUDA 是 PyTorch 的 GPU 支持基础,准备在conda环境中安装PyTorch,因此需要先在宿主系统安装 CUDA。

一、下载选择

访问 NVIDIA CUDA Toolkit Archive 并选择与你的服务器环境相匹配,由于没有deepin系统,所以选择相似的Debian 12版,安装器选择deb(网络),主要是方便。

 

二、安装 CUDA

依次执行以下命令:

wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.debsudo

 以上命令是下载CUDA源相关的安装文件

dpkg -i cuda-keyring_1.1-1_all.deb

 以上命令的作用就是安装nvidia的源相关信息

sudo apt update

以上命令就是更新软件源,获取软件更新列表

sudo apt -y install cuda-toolkit-12-4

以上命令才是正式安装CUDA,最后的12-4代表要安装的版本,可以根据系统驱动版本自己选择,我的550驱动适配CUDA12.4。

三、 配置环境变量

  1. 编辑 ~/.bashrc 文件,添加以下内容:

    export PATH=/usr/local/cuda/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
    export CUDA_HOME=/usr/local/cuda
  2. 保存并应用更改:

    source ~/.bashrc

四、验证安装

运行以下命令验证 CUDA 是否安装成功:

nvcc -V

如果显示 CUDA 版本信息,则安装成功。

 到此显卡相关的准备工作就完成了,接下来就进入……

系列之五:Conda+Pytorch 安装配置

 

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐