LLAMA-CLI 运行千问3.6（R9-7945HX+64G+RTX40608G）

摘要：该内容展示了大语言模型Qwen3.6-35B-A3B在不同配置下的运行命令对比。慢速模式(Slow)和慢速模式2(Slow-2)都设置了较大的上下文窗口(--ctx-size/c 262144)和生成长度(-n 81920)，而快速模式(Fast)则采用默认参数。三组命令都启用了思维链功能(--chat-template-kwargs)，使用相同的温度值(0.2)和随机种子(42)，并配置了

liulilittle

56人浏览 · 2026-05-05 12:42:55

liulilittle · 2026-05-05 12:42:55 发布

Max Support:

Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf [37 Token/S]
Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf [31 Token/S]
Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf [16 Token/S]
Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf [13 Token/S]

Slow: 16Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --ctx-size 262144 -n 81920 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

Slow-2: 17Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
     --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
    --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
    --chat-template-kwargs '{\"enable_thinking\": true}' -c 262144

Fast: 37Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

API:

llama-server -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
  --host 0.0.0.0 --port 8080 `
  --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
  --seed 42 --jinja -ngl 100 --n-cpu-moe 32 -t 16 `
  --ctx-size 262144 -n 81920 `
  --chat-template-kwargs '{\"enable_thinking\": true}'