【2026】记录在windows编译llama.cpp步骤，AMD CPU本地部署千问3.5本地大模型，内存占用低

JOJO___

442人浏览 · 2026-05-19 10:53:36

JOJO___ · 2026-05-19 10:53:36 发布

前言

我的电脑是AMD的+32G内存，没有GPU，偏要玩一玩千问3.5本地大语言模型，github上下载的llama安装包，无法使用，只有自己编译试试了。注意我是编译CPU版本的，你有GPU这篇别看了。
以下是我的CPU型号:
在这里插入图片描述

1. 下载CMAKE

官网下载地址
在这里插入图片描述
或者下载我上传的，注意这是64位
链接：https://pan.quark.cn/s/57d6d1f65309
提取码：cYQk

2. 下载VS2022

VS2022官网下载地址
或者下载我上传的
链接：https://pan.quark.cn/s/57d6d1f65309
提取码：cYQk

勾上这个安装就行
在这里插入图片描述
安装后重启电脑

3. 下载大语言模型Qwen3.5-0.8（可选）

我垃圾电脑CPU选择0.8B量化小模型试试，你可以选择别的大一点的模型，也可以选择0.8B的其他量化版本
Qwen3.5-0.8B官网下载地址
在这里插入图片描述
或者下载我上传的
链接：https://pan.quark.cn/s/57d6d1f65309
提取码：cYQk

4. 拉取llama代码&编译

打开开始菜单，找到vs2022的专用powershell，单击打开
在这里插入图片描述
执行如下命令,注意我是编译CPU版本的，你有GPU这篇别看了

git clone git clone https://github.com/ggml-org/llama.cpp.git --depth=1
cd llama.cpp
mkdir build
cd build
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CURL=OFF
cmake --build . --config Release

编译完后进入目录

cd bin
cd Relase
ls

执行

llama-cli --help

可以看到打印就算是安装成功了
在这里插入图片描述
跑Qwen3.5-0.8B试试

 .\llama-cli.exe -m 你的路径\Qwen3.5-0.8B-Q4_K_M.gguf  -c 4096

-c 4096代表4k上下文，千问3.5-0.8B最大是支持256k,改成

 .\llama-cli.exe -m D:\model\Qwen3.5-0.8B-Q4_K_M.gguf  -c 262144

实测跑起来了速度还行，37 token / s
在这里插入图片描述

内存使用情况，还不错内存只用了12G左右，CPU用了70%。
在这里插入图片描述

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Claude Fable 5 解封实测：三个坑 + 一个更稳的调用方案

DeepSeek技术社区

自定义命令，告别手敲重复指令

简单说，就是把一段你经常用到的提示词、指令甚至脚本，打包成一个以开头的快捷命令。比如你创建一个/test请为当前打开的 Java 类生成 JUnit 5 单元测试，覆盖主要分支，使用 Mockito mock 依赖。测试类放到 `src/test/java` 下，类名加上 `Test` 后缀。之后，你只要在 Claude Code 里敲/test，它就会自动按这个套路生成测试。不用每次再啰嗦一遍。

DeepSeek技术社区

Windows安装ClaudeCode亲测可用版

本文介绍了解决ClaudeCode使用问题的四个步骤：1)修改npm国内镜像源提升下载速度；2)通过创建.claude.json文件并写入{"hasCompletedOnboarding":true}来绕过地区限制；3)配置环境变量，包括API地址、密钥和模型参数，建议使用DeepSeek代理服务；4)在PowerShell中允许执行claude命令。这些设置可帮助用户解决连接Anthropic服