Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2测试
Q4的速度是Q5速度的1.7倍,编程能力后续测试。测试环境:win11+ollama。硬件配置:RTX3090 24G。
·
量化模型地址:魔搭社区-大模型地址
硬件配置:RTX3090 24G
测试环境:win11+ollama
配置环境变量:
OLLAMA_NUM_GPU=999
//作用:告诉 Ollama 尽可能使用所有可用的 GPU
CUDA_VISIBLE_DEVICES=0
//作用:这是 NVIDIA CUDA 的底层环境变量,用于指定程序能看到并使用哪张显卡,多张卡用
CUDA_VISIBLE_DEVICES=0,1,2
OLLAMA_GPU_LAYERS=-1
//作用:指定模型有多少层在 GPU 上运行。
测试模型:Qwen3.5-27B.Q5_K_M.gguf 上下文 16K;Modelfile文件配置:
FROM Qwen3.5-27B.Q5_K_M.gguf
PARAMETER num_ctx 16384
速度统计:
total duration: 18.6678832s
load duration: 67.6955ms
prompt eval count: 4 token(s)
prompt eval duration: 120.442ms
prompt eval rate: 33.21 tokens/s
eval count: 367 token(s)
eval duration: 18.4062953s
eval rate: 19.94 tokens/s
测试模型:Qwen3.5-27B.Q4_K_M.gguf 上下文 16K;Modelfile文件配置:
FROM Qwen3.5-27B.Q4_K_M.gguf
PARAMETER num_ctx 16384
速度统计:
total duration: 11.3041279s
load duration: 67.8447ms
prompt eval count: 4 token(s)
prompt eval duration: 76.7589ms
prompt eval rate: 52.11 tokens/s
eval count: 380 token(s)
eval duration: 11.1138051s
eval rate: 34.19 tokens/s
Q4的速度是Q5速度的1.7倍,编程能力后续测试。
更多推荐



所有评论(0)