LLAMA-CLI 运行千问3.6(R9-7945HX+64G+RTX40608G)
摘要:该内容展示了大语言模型Qwen3.6-35B-A3B在不同配置下的运行命令对比。慢速模式(Slow)和慢速模式2(Slow-2)都设置了较大的上下文窗口(--ctx-size/c 262144)和生成长度(-n 81920),而快速模式(Fast)则采用默认参数。三组命令都启用了思维链功能(--chat-template-kwargs),使用相同的温度值(0.2)和随机种子(42),并配置了
·
Max Support:
- Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf [37 Token/S]
- Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf [31 Token/S]
- Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf [16 Token/S]
- Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf [13 Token/S]
Slow: 16Token/S
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--ctx-size 262144 -n 81920 `
--chat-template-kwargs '{\"enable_thinking\": true}'
Slow-2: 17Token/S
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--chat-template-kwargs '{\"enable_thinking\": true}' -c 262144
Fast: 37Token/S
llama-cli -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -cnv -ngl 100 --n-cpu-moe 32 -t 16 `
--chat-template-kwargs '{\"enable_thinking\": true}'
API:
llama-server -m E:\models\Qwen3.6-35B-A3B\Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf `
--host 0.0.0.0 --port 8080 `
--temp 0.2 --top-p 1.0 --top-k 1 --repeat-penalty 1.0 --presence-penalty 0.0 `
--seed 42 --jinja -ngl 100 --n-cpu-moe 32 -t 16 `
--ctx-size 262144 -n 81920 `
--chat-template-kwargs '{\"enable_thinking\": true}'
- 查看模型信息:http://127.0.0.1:8080/v1/models
- 查看模型状态:http://127.0.0.1:8080/v1/status
更多推荐



所有评论(0)