Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2测试

Q4的速度是Q5速度的1.7倍，编程能力后续测试。测试环境：win11+ollama。硬件配置：RTX3090 24G。

hongyan0921

280人浏览 · 2026-03-31 15:21:51

hongyan0921 · 2026-03-31 15:21:51 发布

量化模型地址：魔搭社区-大模型地址

硬件配置：RTX3090 24G

测试环境：win11+ollama

配置环境变量：

OLLAMA_NUM_GPU=999
//作用：告诉 Ollama 尽可能使用所有可用的 GPU
CUDA_VISIBLE_DEVICES=0
//作用：这是 NVIDIA CUDA 的底层环境变量，用于指定程序能看到并使用哪张显卡,多张卡用
CUDA_VISIBLE_DEVICES=0,1,2
OLLAMA_GPU_LAYERS=-1
//作用：指定模型有多少层在 GPU 上运行。

测试模型：Qwen3.5-27B.Q5_K_M.gguf 上下文 16K；Modelfile文件配置：

FROM Qwen3.5-27B.Q5_K_M.gguf
PARAMETER num_ctx 16384

速度统计：

total duration:       18.6678832s
load duration:        67.6955ms
prompt eval count:    4 token(s)
prompt eval duration: 120.442ms
prompt eval rate:     33.21 tokens/s
eval count:           367 token(s)
eval duration:        18.4062953s
eval rate:            19.94 tokens/s

测试模型：Qwen3.5-27B.Q4_K_M.gguf 上下文 16K；Modelfile文件配置：

FROM Qwen3.5-27B.Q4_K_M.gguf
PARAMETER num_ctx 16384

速度统计：

total duration:       11.3041279s
load duration:        67.8447ms
prompt eval count:    4 token(s)
prompt eval duration: 76.7589ms
prompt eval rate:     52.11 tokens/s
eval count:           380 token(s)
eval duration:        11.1138051s
eval rate:            34.19 tokens/s

Q4的速度是Q5速度的1.7倍，编程能力后续测试。