量化模型地址:魔搭社区-大模型地址

硬件配置:RTX3090 24G

测试环境:win11+ollama

配置环境变量:

OLLAMA_NUM_GPU=999
//作用:告诉 Ollama 尽可能使用所有可用的 GPU
CUDA_VISIBLE_DEVICES=0
//作用:这是 NVIDIA CUDA 的底层环境变量,用于指定程序能看到并使用哪张显卡,多张卡用
CUDA_VISIBLE_DEVICES=0,1,2
OLLAMA_GPU_LAYERS=-1
//作用:指定模型有多少层在 GPU 上运行。

测试模型:Qwen3.5-27B.Q5_K_M.gguf     上下文 16K;Modelfile文件配置:

FROM Qwen3.5-27B.Q5_K_M.gguf
PARAMETER num_ctx 16384

速度统计:

total duration:       18.6678832s
load duration:        67.6955ms
prompt eval count:    4 token(s)
prompt eval duration: 120.442ms
prompt eval rate:     33.21 tokens/s
eval count:           367 token(s)
eval duration:        18.4062953s
eval rate:            19.94 tokens/s

测试模型:Qwen3.5-27B.Q4_K_M.gguf     上下文 16K;Modelfile文件配置:

FROM Qwen3.5-27B.Q4_K_M.gguf
PARAMETER num_ctx 16384

速度统计:

total duration:       11.3041279s
load duration:        67.8447ms
prompt eval count:    4 token(s)
prompt eval duration: 76.7589ms
prompt eval rate:     52.11 tokens/s
eval count:           380 token(s)
eval duration:        11.1138051s
eval rate:            34.19 tokens/s

Q4的速度是Q5速度的1.7倍,编程能力后续测试。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐