视觉理解和视觉回答 - 乐高积木AI拼搭

基于多模态 Embedding + Zilliz + Qwen 视觉理解的多模态 RAG 系统。支持 **Cohere / DashScope Embedding** 和 **DashScope / OpenRouter LLM** 双引擎切换。上传 PDF,用自然语言提问,系统自动检索最相关的页面并由 AI 生成回答。与传统 RAG 不同,本系统**不做文本提取和 OCR**,而是直接将 PDF 页面当作图片处理,通过视觉 Embedding 模型编码,完整保留表格、图表、排版、手写批注等所有视觉信息。

以下为测试和演示效果:

怎样搭建窗户

pic_0fad0675.png

怎样搭建各种墙壁

pic_30b3f78d.png

怎样搭建一个桥

pic_b58c7133.png

帮忙搭建一个法拉利跑车

pic_d8bea413.png

pic_37a57593.png

怎样搭建一个屋顶

pic_4381d381.png

各种屋顶

pic_52c9205a.png

pic_21b0d11f.png

怎样搭建一个飞机

pic_7d8f24e3.png

pic_27a249dd.png

查找红色 的跑车

pic_184f5b4b.png

pic_7c9dac03.png

搭建直升飞机

pic_7a427a3e.png

pic_cab39961.png

pic_a0e869b9.png

搭建 微型城市小车

pic_c10a293a.png

pic_edb95b9d.png

pic_3dee53f2.png

搭建模块化街景

pic_a5f8a102.png

pic_98837bf4.png

搭建街景路灯

pic_e7471168.png

搭建英国风格建筑

pic_a3a75569.png

搭建古典主义建筑

pic_97e96296.png

pic_349f235f.png

搭建中国风格建筑

pic_b32c4642.png

搭建动物

pic_fccc895d.png

各种snot技巧:

pic_33473679.png

pic_e1ae4f7d.png

开源地址: https://github.com/liangdabiao/Multimodal-RAG

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐