Ollama 简单本地部署 deepseek

这次可以看到推理对GPU的占用了，CPU和MEM的clock在推理的时候频率可以上2000M，空闲时200M左右。可以一直在资源监视器里面看下载速度，如果特别慢可以停止再重新发问，这个时候模型下载速度又会变快。和以前不一样，我看别人都是命令行的，这里试一下 deepseek-r1:8b 模型。也有可能是输出字符导致屏幕滚动从而使用了GPU，当前是否使用了GPU存疑。手动滚动相关页面，GPU占用没有

南七技校

362人浏览 · 2025-10-12 13:00:46

南七技校 · 2025-10-12 13:00:46 发布

Ollama 下载

https://ollama.com/

其实是跳转到github的release页面去下载setup的exe文件

https://github.com/ollama/ollama/releases/latest/download/OllamaSetup.exe

1.1GB 左右

安装

注意它强行安装到C盘了

可以去设置更改模型所在的文件夹

选择模型

和以前不一样，我看别人都是命令行的，这里试一下 deepseek-r1:8b 模型

下载模型

只要对话就会开始下载model

网络不好，下载速度好慢

进行提问 deepseek-r1：8b

观察gpu和显存的占用情况，这个问题不明显

deepseek-r1：8b 断网情况下可以进行回复动作

也有可能是输出字符导致屏幕滚动从而使用了GPU，当前是否使用了GPU存疑

手动滚动相关页面，GPU占用没有刚才多，暂且认为推理过程使用了GPU

可能是模型参数太少了，下次换一个20b的模型看看

进行提问 qwen3-coder：30b

可以下载的各种模型

可以一直在资源监视器里面看下载速度，如果特别慢可以停止再重新发问，这个时候模型下载速度又会变快

终于下载ok了

这次可以看到推理对GPU的占用了，CPU和MEM的clock在推理的时候频率可以上2000M，空闲时200M左右

也可以通过pcie slot和gpu board的功耗来判断负载

最大也才50W，感觉没全部用满，pcie功耗上去了电压也会掉下去一些

显存感觉从头到尾都是一直占用16GB的，空闲的时候也是16GB

nvidia的软件也可以看到这些

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

DeepSeek-V4 在企业知识问答中的混合检索策略：BM25 + 向量何时更优？

DeepSeek技术社区

cover

DeepSeek-V4 推理吞吐优化：vLLM 与 SGLang 的选型边界与实测对比

DeepSeek技术社区

cover

RAG 稀疏稠密双路召回：BM25 与向量权重调参的工程陷阱与平衡策略

DeepSeek技术社区

所有评论(0)

查看更多评论

南七技校

已为社区贡献1条内容