目录

0. 前言

第一章Ollama 安装与本地推理环境搭建

1.1. Windows 环境要求

1.2. 检查 NVIDIA 显卡环境

1.3. 安装 Ollama

1.3.0图文示意步骤

1.3.1 下载 Ollama

1.3.2 安装完成验证

1.4. 运行第一个本地模型

1.4.1 运行 DeepSeek 模型

1.4.2 运行 Qwen 模型

1.4.3 运行 Llama 模型

1.5. 查看已安装模型

1.6. 模型存储位置(Windows)

1.7. 验证 GPU 是否参与推理

1.8. 常见问题

1.8.1 模型运行很慢

1.8.2 GPU 没有被使用

1.8.3 下载模型失败

1.8.4 显存不足

1.9. 本章总结


0. 前言

过去一年,本地大模型推理已经从“极客玩法”逐渐进入企业实际应用。

最近两年时间里,我开始在实际项目中尝试将大模型部署到本地硬件环境,并把大模型作为推理引擎,用于输出业务分析与辅助决策建议。

从 DeepSeek 到 Qwen,再到 Llama 系列,越来越多开发者开始尝试:

  • 在个人电脑运行AI
  • 构建本地知识库
  • 私有化部署大模型
  • 使用 Ollama 搭建 AI 开发环境
  • 基于本地模型构建行业推理应用

但真正开始实践后会发现,问题远比“安装成功”复杂:

  • 什么显卡才能真正跑得动?
  • 16GB 内存到底够不够?
  • Windows 与 Linux 推理性能差异有多大?
  • 为什么相同模型在不同机器上的输出结果并不一致?
  • 为什么长时间推理后系统会出现卡顿甚至崩溃?

因此,我准备通过这个系列,完整记录本地大模型从部署到落地实践的全过程,包括:

  • Ollama 安装与本地推理环境搭建
  • DeepSeek / Qwen 模型部署实战
  • 多种硬件平台推理性能对比
  • 本地大模型长时间稳定性测试
  • Ollama API 开发实战
  • 企业级本地 AI 部署方案实践

希望能够给正在尝试本地 AI部署的开发者一些真实、可落地的参考,也记录自己在本地 AI 推理实践过程中的一些经验与踩坑。

第一章Ollama 安装与本地推理环境搭建

1.1. Windows 环境要求

在开始之前,建议先确认当前电脑是否满足本地推理的基础要求。

虽然 Ollama 对硬件要求并不算特别高,但模型推理会持续占用:
• GPU显存
• 系统内存
• 硬盘缓存
• CPU 调度资源

如果配置过低,可能会出现:
• 推理速度过慢
• GPU 无法加载模型
• 系统卡顿
• 长时间运行崩溃

推荐配置如下

项目

推荐配置

操作系统

Windows 10 / Windows 11 64位

内存

≥16GB(推荐32GB)

显卡

NVIDIA RTX 系列(推荐 RTX3060 及以上)

显存

建议 8GB 以上

硬盘空间

至少 50GB 可用空间

显卡驱动

最新 NVIDIA 驱动

实际测试中,RTX2060 虽然能够运行部分 7B 模型,但长时间推理时显存压力会比较明显;而 RTX3060 12GB 在本地开发环境下会更加稳定。

1.2. 检查 NVIDIA 显卡环境

在安装 Ollama 之前,建议先确认 GPU 是否能够被系统正常识别。

打开命令行执行:

nvidia-smi

如果能够看到以下信息:
• GPU 型号
• 显存大小
• 驱动版本
• CUDA 版本

说明当前 GPU 环境基本正常。

如果无法识别 GPU,则需要优先安装 NVIDIA 驱动。

在开始安装之前,先确认 GPU 是否正常工作。

打开命令行执行:

nvidia-smi

1.3. 安装 Ollama

Ollama 是目前本地大模型部署中最流行的工具之一。

它最大的优势是:
• 安装简单
• 模型管理方便
• 支持多种主流模型
• API 调用非常友好
• 对开发者环境支持较好

1.3.0图文示意步骤

1.3.1 下载 Ollama

访问网站有以下几个:

访问官网如下所示:

下载 Windows 版本并安装。

1.3.2 安装完成验证

安装完成后打开命令行,执行:

ollama -v

如果输出版本号,说明安装成功,如下图所示:

1.4. 运行第一个本地模型

Ollama 支持大量主流开源模型,例如:
• DeepSeek
• Qwen
• Llama
• Gemma
• Mistral

首次运行模型时,系统会自动下载模型文件。

不同模型指令图形示意

不同模型指令图形示意如下:

1.4.1 运行 DeepSeek 模型

ollama run deepseek-r1:7b

首次运行时会自动下载模型,请耐心等待。如下图所示

1.4.2 运行 Qwen 模型

ollama run qwen2.5:7b

1.4.3 运行 Llama 模型

ollama run llama3

1.5. 查看已安装模型

ollama list

可以看到当前本地已下载的模型列表。如下图所示:

1.6. 模型存储位置(Windows)

Ollama 默认模型存储路径,具体取决于安装时候的设置。

C:\Users\你的用户名\.ollama\models

如果后续需要清理空间,可以从这里管理模型文件。

1.7. 验证 GPU 是否参与推理

例如要求写个集装箱算法:如下示意:

在模型运行时,可以打开:

  • 任务管理器
  • 性能 → GPU

观察:

  • GPU 利用率是否上升
  • 显存是否占用

如果 GPU 有明显使用,说明推理已经在 GPU 上运行。如下图所示:

1.8. 常见问题

  1. 模型运行很慢:通常是因为模型运行在 CPU 上、显存不足或者模型规模过大。
  2. GPU 没有被调用:检查 NVIDIA 驱动、CUDA 环境以及当前是否误使用了集成显卡。
  3. 模型下载失败:可能与网络环境、GitHub/CDN 访问限制有关。
  4. 显存不足:建议优先使用 7B 模型或量化版本模型。

1.8.1 模型运行很慢

可能原因如下示意:

1.8.2 GPU 没有被使用

检查示意如下图所示:

1.8.3 下载模型失败

可能原因如下图示意:

1.8.4 显存不足

建议如下示意:

1.9. 本章总结

通过本章,我们已经完成:

• Windows 本地 AI 环境准备
• NVIDIA GPU 环境验证
• Ollama 安装
• 本地模型运行
• GPU 推理验证

此时你已经具备了一个最基础的本地大模型运行环境。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐