视觉理解和视觉回答 - 乐高积木AI拼搭 - 多模态RAG

liangdabiao

235人浏览 · 2026-05-06 09:30:50

liangdabiao · 2026-05-06 09:30:50 发布

视觉理解和视觉回答 - 乐高积木AI拼搭

基于多模态 Embedding + Zilliz + Qwen 视觉理解的多模态 RAG 系统。支持 **Cohere / DashScope Embedding** 和 **DashScope / OpenRouter LLM** 双引擎切换。上传 PDF，用自然语言提问，系统自动检索最相关的页面并由 AI 生成回答。与传统 RAG 不同，本系统**不做文本提取和 OCR**，而是直接将 PDF 页面当作图片处理，通过视觉 Embedding 模型编码，完整保留表格、图表、排版、手写批注等所有视觉信息。

以下为测试和演示效果：

怎样搭建窗户

怎样搭建各种墙壁

怎样搭建一个桥

帮忙搭建一个法拉利跑车

怎样搭建一个屋顶

各种屋顶

怎样搭建一个飞机

查找红色的跑车

搭建直升飞机

搭建微型城市小车

搭建模块化街景

搭建街景路灯

搭建英国风格建筑

搭建古典主义建筑

搭建中国风格建筑

搭建动物

各种snot技巧：

开源地址： https://github.com/liangdabiao/Multimodal-RAG

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

AI 数字人直播对电脑配置有要求吗？

DeepSeek技术社区

cover

阿里面试官问：同样写系统提示，Claude Code 凭什么比你稳？

DeepSeek技术社区

Codex 接入 DeepSeek 教程：使用 CC-Switch 配置 API 渠道（图文详解）

通过以上步骤，您即可在 Codex 客户端中通过 CC-Switch 调用 DeepSeek API，实现 AI 编程助手的本地化部署。近期，OpenAI 推出的 Codex 客户端受到众多开发者关注，但由于网络环境及接口配置限制，不少朋友希望借助 DeepSeek API 来驱动 Codex，实现更稳定、灵活的模型调用。返回 CC-Switch 主界面，在渠道列表中选择刚刚创建的 DeepSee

DeepSeek技术社区

所有评论(0)

查看更多评论

liangdabiao

已为社区贡献4条内容