
别整天DeepSeek了,“GPT-4o级“多模态AI助手也可零成本部署,能看能听又能说!
近期国产大模型最火的,除了DeepSeek,就要属面壁智能“小钢炮”MiniCPM-o 2.6。“小钢炮”的亮点是:具备可以和GPT-4o较劲的多模态能力。首先简单看一下它的表现。1.实时视频通话让AI看一下坐在摄像头前的我:让AI看一下手机屏幕上的内容并分析:可以比较精准地识别画面中的内容,但相比GPT-4o,反应略慢。2.实时语音通话对语音的反应速度较顺畅,日常对话之外,也可辨认各种声音(比如
近期国产大模型最火的,除了DeepSeek,就要属面壁智能“小钢炮”MiniCPM-o 2.6。
“小钢炮”的亮点是:具备可以和GPT-4o较劲的多模态能力。首先简单看一下它的表现。
一、多模态测试
1.实时视频通话
让AI看一下坐在摄像头前的我:
让AI看一下手机屏幕上的内容并分析:
可以比较精准地识别画面中的内容,但相比GPT-4o,反应略慢。
2.实时语音通话
对语音的反应速度较顺畅,日常对话之外,也可辨认各种声音(比如敲键盘)。
3.聊天机器人(文字、图片、视频)
文字对话方面,智商胜过GPT3.5:
不过在一些对话中机械感还比较明显:
图片识别比较准确,给出好评:
视频识别也不错,比如对这段舞蹈的描述:
但对于视频中的语音,识别能力不佳:
总的来看,MiniCPM表现算不上完美,但距离GPT-4o并没有代差。更重要的是,它已经开源!
接下来当然是本地部署教程,以Windows平台为例讲解。
二、服务器端部署
请确认网络畅通,并已经安装了Git、Miniconda等基本工具。
在Windows搜索框输入cmd,进入命令行窗口:
然后切换到你想安装MiniCPM-o的硬盘,比如H盘:
依次执行下列指令:
git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
conda create -n MiniCPM-o python=3.10 -y
conda activate MiniCPM-o
pip install torch2.4.0+cu124 torchvision0.19.0+cu124 torchaudio==2.4.0+cu124 --index-url https://download.pytorch.org/whl/cu124
pip install onnxruntime-gpu==1.20.1
注意,请始终保持命令行窗口开启。
打开MiniCPM-o目录下的requirements_o2.6.txt
删除或注释掉以下几行,并保存文件。
torch2.3.1
torchaudio2.3.1
torchvision0.18.1
onnxruntime1.20.1
继续在命令行窗口下输入指令:
pip install -r requirements_o2.6.txt
接下来是非常容易坑人的一个点:flash_attn的安装,稍有差错就装不上。如果你不是熟手,建议严格按照下面操作。
首先来确认相关工具的版本:
查看python版本:在命令行窗口下输入:python --version
此处应显示Python 3.10.xx
然后查看PyTorch版本:
在命令行窗口下输入 python 并回车,进入Python模式:
再输入下面的指令:
import torch
print(torch.__version__)
此处应显示2.4.0+cu124
接着下载flash_attn,存放到你的MiniCPM根目录,比如 H:\MiniCPM-o。
下载地址:
https://github.com/bdashore3/flash-attention/releases/download/v2.7.0.post2/flash_attn-2.7.0.post2+cu124torch2.4.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
在命令行窗口下安装flash_attn,输入指令:
pip install flash_attn-2.7.0.post2+cu124torch2.4.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
接下来分两种情况。
第一种情况:如果你的网络能访问huggingface,可直接启动服务器端,执行以下指令:
python web_demos/minicpm-o_2.6/model_server.py
第二种情况:如果你想使用本地模型,则需要先下载模型(总容量超过30GB):
git clone https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-2_6
当前目录下会自动建立 MiniCPM-o-2_6 文件夹:
下载完成后,在MiniCPM根目录下运行指令:
python web_demos/minicpm-o_2.6/model_server.py --model 你的目录
比如你的MiniCPM-o 2.6是安装在 H:\MiniCPM-o 目录,则指令写成下面这样:
python web_demos/minicpm-o_2.6/model_server.py --model “H:\MiniCPM-o\MiniCPM-o-2_6”
服务器端成功启动之后的样子(注意保持窗口开启):
三、网页端部署
首先要安装nodejs,网址为:nodejs.org,点击下载并一路Next默认设置安装即可:
新开一个命令行窗口,并执行下列指令:
cd H:\MiniCPM-o\web_demos\minicpm-o_2.6\web_server
上面的操作,是假设你的项目安装在H:\MiniCPM-o 目录,如果安装在其他目录,请进行相应调整。
继续执行下列指令:
npm install -g pnpm
conda activate MiniCPM-o
git init
pnpm install
然后要生成并安装SSL证书,首先需要下载一个exe文件:
https://slproweb.com/download/Win64OpenSSL_Light-3_4_0.exe
运行该exe文件,安装。
接着在命令行窗口输入以下命令,生成私钥和自签名证书:
openssl req -newkey rsa:2048 -nodes -keyout key.pem -x509 -days 365 -out cert.pem
此时系统会提示输入信息,可以参考下面的输入:
Country Name 输入 CN
State or Province Name 输入 Beijing
Locality Name 输入 Beijing
Organization Name 输入 company
Organizational Unit Name 输入 section
Common Name 输入 abcd
Email Address 输入 12345678@qq.com
最后运行下面的指令,加载网页端:
pnpm run dev
网页端加载成功之后是这样(具体网址可能会不同):
**
四、聊天机器人(可选)**
聊天机器人的服务需要单独启动。
再新开一个命令行窗口(PowerShell),并在MiniCPM根目录下运行指令:
python web_demos/minicpm-o_2.6/chatbot_web_demo_o2.6.py
聊天机器人窗口加载成功之后是这样:
注意,即使不启动聊天机器人,也可以正常使用语音和视频通话功能。
保持上面几个窗口(服务器端+网页端必须打开、聊天机器人可选)开启,复制网页端窗口里的地址到浏览器打开。这里就用本机地址:http://localhost:8088/
如果看到这样的界面,且下面按钮是蓝色而不是灰色,说明大功告成!
界面选项很简单,比如实时视频通话,可以设置语音打断、高清模式,或选择AI的语音。这里不多介绍。
**
五、便捷启动(可选)**
为今后启动方便MiniCPM,可建立一个批处理文件,内容如下(涉及文件目录的,需根据你实际安装的目录进行修改):
@echo off
call conda activate MiniCPM-o
start “Model Server” powershell -NoExit -Command ^
python H:\MiniCPM-o\web_demos\minicpm-o_2.6\model_server.py --model ‘H:\MiniCPM-o\MiniCPM-o-2_6’"
start “Web Server” powershell -NoExit -Command ^
cd H:\MiniCPM-o\web_demos\minicpm-o_2.6\web_server; ^
pnpm run dev"
start “Chatbot Demo” powershell -NoExit -Command ^
python H:\MiniCPM-o\web_demos\minicpm-o_2.6\chatbot_web_demo_o2.6.py"
今后只要运行该批处理文件,就能一键运行“小钢炮”。
至此,你已拥有了本地部署的GPT-4o级别多模态AI助手,完全不用花钱(当然显卡还是要钱)!
需要说明的是,默认的MiniCPM-o 2.6模型要求18G显存,如果你的显存不达标,可能影响性能,建议使用量化int4模型(模型大小约14GB)。
量化int4模型需要额外做一些修改才能使用,具体请参考下方“官方部署教程”里面的内容。
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)