Mac 本地vllm + qwen3-30b-a3b-instruct-4bit + void/opencode 终极的本地vibe coding开源代替 cursor方案

我发现我之前一直都是错误的，ollama确实最简单，一键下载运行，也确实可以和开源agent工具搭配，但是！纯对话有80toks！喜欢那种极限利用硬件的感觉，本地真的无敌了好吧啊哈哈哈哈，真爽啊vibe coding！比如这样，你可以自己在vllm中下载，也可以在lm studio中下载完以后再通过vllm启动！你要确定系统允许分配16g以上给显存！不然后续的启动会失败的！不要看终端输出的结果，因

('-')

416人浏览 · 2026-04-16 22:08:49

('-') · 2026-04-16 22:08:49 发布

嗨嗨嗨嗨！！！

背景：m4pro 24g. macbook pro

————————————————————————————————————————————————

一入ai神似海啊，从此hand writing是路人啊哈哈哈💦

man！！！！shit shit shit！！

我发现我之前一直都是错误的，ollama确实最简单，一键下载运行，也确实可以和开源agent工具搭配，但是！！！

它都是通用格式的！！！在mac上性能大幅削弱了，要使用mlx才是满血的模型性能

期间我换了好多个模型，不停下载，几天搞了100g了哈哈哈哈💦

我一直以为是mac性能真的太过于孱弱了！！！

后来发现我是sb哈哈哈哈💦

————————————————————————————————————————————————

于是又折腾了很久的mlx格式：LM Studio启动！！！

直接官网下载然后在里面随便添加模型就行了：

https://lmstudio.ai

然后下载得到一个是这样的：

在左边的搜索按钮可以挑选你感兴趣的llm

这个软件做的真的挺好的，入门很合适，有硬件保护，防止爆显存I）当然你可以手动关闭它哈啊哈哈

而且社区也很全面，有通用模型和各种模型可以下载，我在上面下了几个mlx还不错

下载完以后load模型，即可开始对话，就上图那样

但是但是但是！！！！！！！！

LM Studio性能不行，会爆显存！！！！！！

比如我下载了一个实际占用17g的内存，到监视器一看还是压力爆大不知道怎么回事

我关闭了所有应用，只留下LM Studio才勉强运行了，而且上下文设置得很短，只想跑通💦

可能是我显存分配有问题，但是LM Studio确实还可以更性能一点

总之这个用来下载模型很好用

————————————————————————————————————————————————

于是我又得知了折腾方式——vllm-mlx！！！！！！！！！！！！！！！！！！！！！

还还hhia！！！！！！！！！！那我们开始吧

前提！！！！！！！！！！！！！！！！

你要确定系统允许分配16g以上给显存！！！不然后续的启动会失败的！！！！一定啊！！！！

我就是这个地方一度陷入僵局了哈哈哈哈💦，后面改变了分配才成功

至少留4g给系统吧，而且不要留太多的后台，要给模型的加载留足空间，还有上下文呢

（24g还是太拘谨了哈哈哈哈，我算是已经利用了极限了！！！！！！！！！！！！！）

首先确保本地有3.11版本以上的python

python3 --version

不过一般macos自带的python版本不够，vllm需要3.11以上的环境

因为他是一个python包，因此需要通过python配置

说实话我感觉python真的牛吧，到处都用它

如果版本不够的话，可以使用homebrew进行install一下

brew install python

如果homebrew不知道可以去安装一下，很简单的，还有中文版喔，非常建议mac用户安装

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

中文版本：

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

然后在python3中下载vllm-mlx：

pip install vllm-mlx

安装完成以后就可以启动模型了！！注意一定要在虚拟环境中启动

vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000

比如这样，你可以自己在vllm中下载，也可以在lm studio中下载完以后再通过vllm启动！！

# 1. 先激活虚拟环境
source ~/.venv-vllm-mlx/bin/activate

# 2. 启动服务（使用本地路径）
vllm-mlx serve ~/models/Qwen2.5-7B-Instruct --port 8000

终端测试：新建一个终端窗口

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "messages": [{"role": "user", "content": "你好"}]
  }'

2-4bit' max_tokens=None temp=None top_p=None top_k=None min_p=None presence_penalty=None repetition_penalty=None msgs=4 roles=['system', 'user', 'assistant', 'user'] total_chars=11278 tools=0 response_format=None
INFO:vllm_mlx.server:[REQUEST] last user message preview: '你会说中文吗a'
INFO:     127.0.0.1:60413 - "POST /v1/chat/completions HTTP/1.1" 200 OK
INFO:vllm_mlx.server:[disconnect_guard] START poll=0.5s heartbeat=5.0s
INFO:vllm_mlx.server:[disconnect_guard] first chunk arrived, elapsed=0.0s
INFO:     127.0.0.1:60421 - "GET /v1/models HTTP/1.1" 200 OK
INFO:vllm_mlx.server:Chat completion (stream): 22 tokens in 26.73s (0.8 tok/s)
INFO:vllm_mlx.server:[disconnect_guard] generator exhausted normally, 25 chunks, elapsed=26.7s
INFO:vllm_mlx.server:[disconnect_guard] CLEANUP done, 25 chunks, 0 heartbeats, elapsed=26.7s
INFO:     127.0.0.1:60413 - "GET /v1/models HTTP/1.1" 200 OK

如果能正确收到响应就成功了！！！

done！！！

实测qwen3-coder-30b-a3b-instruct-4bit有纯70tok/s 的响应速度！！！

不要看终端输出的结果，因为那个是平均的时间，算上工具调用会慢一点但是完全惊艳！！！！

—————————————————————————————————————————————————

然后下载void，void很聪明，下载好了直接在旁边可以看到聊天窗口，选择你的模型就好了

也不用过多的配置：

注意如果是配置opencode还需要写入json配置文件才可以：

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "vllm-mlx": {
      "name": "vLLM-MLX Local",
      "options": {
        "baseURL": "http://localhost:8080/v1"
      },
      "models": {
        "qwen-coder": {
          "name": "Qwen3-Coder-30B"
        }
      }
    }
  },
  "model": "vllm-mlx/qwen-coder"
}

我感觉比较麻烦

——————————————————————————————————————————————

opencode也可以通过终端直接安装，它是一个类似于claudecode一样的终端cil工具

它可以通过插件一件识别ollama模型，这个确实很方便了

lm stuido和其他的local 模型都需要进行配置才行

不过我感觉opencode不是很好用，虽然功能比较强大，但是对比void还是不够轻量

而且不够稳定，不建议使用

————————————————————————————————————————————

我期间还知道了还有更屌的 mlx- flash！！！真的牛吧！！！！纯对话有80toks！！！！！！！！！

已经很顶了，不过害得是moe架构llm的比较给力，真的牛逼，

不过有bug，连了void流式响应有问题，并且链接opencode会爆显存

好像是和metal驱动兼容性bug有关，虽然什么kv内存管理，什么跑200b sdd，真的上天了