Max Support:

  • Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf [37 Token/S]
  • Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf [31 Token/S]
  • Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf [16 Token/S]
  • Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf [13 Token/S]

Slow: 16Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --ctx-size 262144 -n 81920 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

Slow-2: 17Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
     --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
    --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
    --chat-template-kwargs '{\"enable_thinking\": true}' -c 262144

Fast: 37Token/S

llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
   --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
   --seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
   --chat-template-kwargs '{\"enable_thinking\": true}'

API:

llama-server -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
  --host 0.0.0.0 --port 8080 `
  --temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
  --seed 42 --jinja -ngl 100 --n-cpu-moe 32 -t 16 `
  --ctx-size 262144 -n 81920 `
  --chat-template-kwargs '{\"enable_thinking\": true}' 
  • 查看模型信息:http://127.0.0.1:8080/v1/models
  • 查看模型状态:http://127.0.0.1:8080/v1/status
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐