嗨嗨嗨嗨!!!

背景:m4pro 24g. macbook pro

————————————————————————————————————————————————

一入ai神似海啊,从此hand writing是路人啊哈哈哈💦

man!!!!shit shit shit!!

我发现我之前一直都是错误的,ollama确实最简单,一键下载运行,也确实可以和开源agent工具搭配,但是!!!

它都是通用格式的!!!在mac上性能大幅削弱了,要使用mlx才是满血的模型性能

期间我换了好多个模型,不停下载,几天搞了100g了哈哈哈哈💦

我一直以为是mac性能真的太过于孱弱了!!!

后来发现我是sb哈哈哈哈💦

————————————————————————————————————————————————

于是又折腾了很久的mlx格式:LM Studio启动!!!

直接官网下载然后在里面随便添加模型就行了:

https://lmstudio.ai

然后下载得到一个是这样的:

在左边的搜索按钮可以挑选你感兴趣的llm

这个软件做的真的挺好的,入门很合适,有硬件保护,防止爆显存I)当然你可以手动关闭它哈啊哈哈

而且社区也很全面,有通用模型和各种模型可以下载,我在上面下了几个mlx还不错

下载完以后load模型,即可开始对话,就上图那样

但是但是但是!!!!!!!!

LM Studio性能不行,会爆显存!!!!!!

比如我下载了一个实际占用17g的内存,到监视器一看还是压力爆大不知道怎么回事

我关闭了所有应用,只留下LM Studio才勉强运行了,而且上下文设置得很短,只想跑通💦

可能是我显存分配有问题,但是LM Studio确实还可以更性能一点

总之这个用来下载模型很好用

————————————————————————————————————————————————

于是我又得知了折腾方式——vllm-mlx!!!!!!!!!!!!!!!!!!!!!

还还hhia!!!!!!!!!!那我们开始吧

前提!!!!!!!!!!!!!!!!

你要确定系统允许分配16g以上给显存!!!不然后续的启动会失败的!!!!一定啊!!!!

我就是这个地方一度陷入僵局了哈哈哈哈💦,后面改变了分配才成功

至少留4g给系统吧,而且不要留太多的后台,要给模型的加载留足空间,还有上下文呢

(24g还是太拘谨了哈哈哈哈,我算是已经利用了极限了!!!!!!!!!!!!!)

首先确保本地有3.11版本以上的python

python3 --version

不过一般macos自带的python版本不够,vllm需要3.11以上的环境

因为他是一个python包,因此需要通过python配置

说实话我感觉python真的牛吧,到处都用它

如果版本不够的话,可以使用homebrew进行install一下

brew install python

如果homebrew不知道可以去安装一下,很简单的,还有中文版喔,非常建议mac用户安装

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

中文版本:

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

然后在python3中下载vllm-mlx:

pip install vllm-mlx

安装完成以后就可以启动模型了!!注意一定要在虚拟环境中启动

vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000

比如这样,你可以自己在vllm中下载,也可以在lm studio中下载完以后再通过vllm启动!!

# 1. 先激活虚拟环境
source ~/.venv-vllm-mlx/bin/activate

# 2. 启动服务(使用本地路径)
vllm-mlx serve ~/models/Qwen2.5-7B-Instruct --port 8000

终端测试:新建一个终端窗口

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "default",
    "messages": [{"role": "user", "content": "你好"}]
  }'
2-4bit' max_tokens=None temp=None top_p=None top_k=None min_p=None presence_penalty=None repetition_penalty=None msgs=4 roles=['system', 'user', 'assistant', 'user'] total_chars=11278 tools=0 response_format=None
INFO:vllm_mlx.server:[REQUEST] last user message preview: '你会说中文吗a'
INFO:     127.0.0.1:60413 - "POST /v1/chat/completions HTTP/1.1" 200 OK
INFO:vllm_mlx.server:[disconnect_guard] START poll=0.5s heartbeat=5.0s
INFO:vllm_mlx.server:[disconnect_guard] first chunk arrived, elapsed=0.0s
INFO:     127.0.0.1:60421 - "GET /v1/models HTTP/1.1" 200 OK
INFO:vllm_mlx.server:Chat completion (stream): 22 tokens in 26.73s (0.8 tok/s)
INFO:vllm_mlx.server:[disconnect_guard] generator exhausted normally, 25 chunks, elapsed=26.7s
INFO:vllm_mlx.server:[disconnect_guard] CLEANUP done, 25 chunks, 0 heartbeats, elapsed=26.7s
INFO:     127.0.0.1:60413 - "GET /v1/models HTTP/1.1" 200 OK

如果能正确收到响应就成功了!!!

done!!!

实测qwen3-coder-30b-a3b-instruct-4bit有纯70tok/s 的响应速度!!!

不要看终端输出的结果,因为那个是平均的时间,算上工具调用会慢一点但是完全惊艳!!!!

—————————————————————————————————————————————————

然后下载void,void很聪明,下载好了直接在旁边可以看到聊天窗口,选择你的模型就好了

也不用过多的配置:

注意如果是配置opencode还需要写入json配置文件才可以:

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "vllm-mlx": {
      "name": "vLLM-MLX Local",
      "options": {
        "baseURL": "http://localhost:8080/v1"
      },
      "models": {
        "qwen-coder": {
          "name": "Qwen3-Coder-30B"
        }
      }
    }
  },
  "model": "vllm-mlx/qwen-coder"
}

我感觉比较麻烦

——————————————————————————————————————————————

opencode也可以通过终端直接安装,它是一个类似于claudecode一样的终端cil工具

它可以通过插件一件识别ollama模型,这个确实很方便了

lm stuido和其他的local 模型都需要进行配置才行

不过我感觉opencode不是很好用,虽然功能比较强大,但是对比void还是不够轻量

而且不够稳定,不建议使用

————————————————————————————————————————————

我期间还知道了还有更屌的 mlx- flash!!!真的牛吧!!!!纯对话有80toks!!!!!!!!!

已经很顶了,不过害得是moe架构llm的比较给力,真的牛逼,

不过有bug,连了void流式响应有问题,并且链接opencode会爆显存

好像是和metal驱动兼容性bug有关,虽然什么kv内存管理,什么跑200b sdd,真的上天了

但是目前moe用不了,还有待进一步研究

——————————————————————————————————————————————

还有就是vllm-metal!!

这个又激起我折腾的兴趣了!!!!!!!哈哈哈哈嗨嗨嗨嗨!!!

等我研究!!!!!至少mac有够耐造的啊哈哈哈(期间紫屏了好几次,只能重启啊哈哈哈)

不过折腾出来真的很爽!!!!!!

喜欢那种极限利用硬件的感觉,本地真的无敌了好吧啊哈哈哈哈,真爽啊vibe coding!!!!!!!

done!!!!!!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐