手把手教你在本地部署Ollama+Qwen2+Deepseek-R1!附避坑指南
打开浏览器,访问 `http://localhost:3000`,进入 OpenWebUI 界面。点击“Add Model”,输入 Ollama 的地址(默认是 `http://localhost:11434`),然后就可以在网页上直接与模型交互了!还在为本地部署大模型头疼?- [Qwen2 模型下载](https://modelscope.cn/models/qwen/Qwen2-7B/summ
导语:
还在为本地部署大模型头疼?别担心!今天教你用 Ollama在联想工作站 P30 上直接运行 Qwen2 和 Deepseek-R1,全程只需几条命令,小白也能轻松上手!附赠性能优化小技巧,让你的模型跑得更快更稳!
一、设备配置:你的机器够用吗?
我的主力机是 联想 ThinkStation P30,配置如下:
- CPU: Intel Xeon E5-2687W v4(12核24线程)
- 内存: 64GB DDR4(32GB 勉强够用,64GB 更稳)
- 显卡: RTX 3090 24GB(没 GPU 也能跑,但速度会慢一些)
- 硬盘: 1TB NVMe SSD(模型文件较大,SSD 是必备)
划重点:
- 如果只有 CPU,建议运行 7B 以下的小模型
- 显卡显存 ≥12GB 可以尝试 70B 模型,24GB 直接起飞
- C盘预留至少 50GB 空间(模型文件默认会下载到这里)
二、Ollama 极简部署:一行命令搞定
Ollama 的最大优势就是简单!无需复杂配置,直接运行模型。
1. 安装 Ollama
打开 PowerShell,运行以下命令:
【powershell】
# 一键安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,Ollama 会自动启动服务。
2. 运行模型
Ollama 支持多种模型,直接运行以下命令即可:
【bash】
# 运行 Qwen2
ollama run qwen2
# 运行 Deepseek-R1
ollama run deepseek-r1
第一次运行时会自动下载模型文件,耐心等待即可。
3. 常用命令
【bash】
# 查看已安装的模型
ollama list
# 删除不需要的模型
ollama rm <模型名称>
# 拉取新模型(比如 llama3)
ollama pull llama3
三、性能优化:让你的模型跑得更快
1. 启用 GPU 加速
如果你的机器有 NVIDIA 显卡,可以通过以下命令启用 GPU 加速:
【bash】
# 运行模型时启用 GPU
OLLAMA_CMAKE_ARGS="-DLLAMA_CUBLAS=on" ollama run qwen2
2. 修改模型存储路径(避免 C 盘爆满)
默认情况下,模型会下载到 `C:\Users\用户名\.ollama`。如果你想存到其他盘,可以这样做:
【powershell】
# 创建环境变量(路径换成你的)
[System.Environment]::SetEnvironmentVariable('OLLAMA_MODELS','D:\LLM\Models',[System.EnvironmentVariableTarget]::User)
# 重启 Ollama 服务
Restart-Service Ollama
四、OpenWebUI:可视化交互界面
如果你不喜欢命令行,可以用 OpenWebUI 来管理模型,操作更直观!
1. 安装 OpenWebUI
【bash】
# 使用 Docker 运行 OpenWebUI
docker run -d --name openwebui -p 3000:3000 --restart always openwebui/openwebui:latest
2. 连接 Ollama
打开浏览器,访问 `http://localhost:3000`,进入 OpenWebUI 界面。点击“Add Model”,输入 Ollama 的地址(默认是 `http://localhost:11434`),然后就可以在网页上直接与模型交互了!
五、性能实测:P30 跑分结果
| 模型 | 硬件配置 | Tokens/s | 显存占用 |
|-----------|---------------|----------|--------|
| Qwen2-7B | RTX 3090 | 42.3 | 14GB |
| Deepseek-R1| Xeon E5 | 12.7 | CPU满载 |
| Llama3-8B | RTX 3090+CPU | 28.5 | 18GB |
省流总结:
- GPU 选手:无脑冲 70B 以下模型
- CPU 勇士:建议 7B 模型+量化版
六、常见问题解答
1. Ollama 报错“CUDA out of memory”
➤ 解决方案:运行命令前加 `OLLAMA_CMAKE_ARGS="-DLLAMA_CUBLAS=on"` 强制启用 GPU
2. 模型下载速度慢
➤ 解决方案:使用代理工具(如 Clash)加速下载
3. OpenWebUI 无法连接 Ollama
➤ 检查防火墙!运行以下命令放行端口:
【powershell】
New-NetFirewallRule -DisplayName "Ollama" -Direction Inbound -Action Allow -Protocol TCP -LocalPort 11434
结语:
Ollama 的极简设计让本地部署大模型变得无比轻松,无论是 Qwen2 还是 Deepseek-R1,都能一键运行。联想 P30 的强劲性能更是为模型推理提供了坚实保障。如果你还有其他问题,欢迎评论区留言,一起交流学习!
相关链接:
- [Ollama 官网](Ollama)
- [OpenWebUI 文档](🏡 Home | Open WebUI)
- [Qwen2 模型下载](魔搭社区)
- [Deepseek-R1 官网](DeepSeek)
希望这篇教程能帮到你!如果有任何改进建议,欢迎指出!
更多推荐
所有评论(0)