Memoria-智能影记创新实训博客（七）：大模型在当前项目中的应用总结

2301_80054904

106人浏览 · 2026-05-15 15:38:25

2301_80054904 · 2026-05-15 15:38:25 发布

Memoria-智能影记创新实训博客（七）：大模型在当前项目中的应用总结

博客主题：大模型能力在 Memoria 主线功能中的分层应用
博客总结：前六篇博客已经分别介绍了图片打标、语义搜索、故事生成、端侧模型部署、数字相册和创作推荐。本篇不再重复每个功能的实现细节，而是从整体视角总结：当前项目到底用了哪些大模型能力，它们分别解决什么问题，以及为什么要这样分层设计。

1. 总体思路

Memoria 不是把所有任务都交给一个大模型，而是把模型能力拆成三层：第一层是 MobileCLIP2 这类视觉-文本向量模型，负责把图片和文字放进同一个语义空间；第二层是 DeepSeek 这类语言模型，负责自然语言解析、结构化生成和文案创作；第三层是 Qwen3.5-0.8B / 本地 VLM 这类端侧模型，负责在不上传原图的前提下补充图片 caption 或进行轻量视觉理解。

这种设计的核心是：能本地完成的理解尽量本地完成，需要语言组织和复杂推理时再调用云端 LLM；所有模型输出都必须经过业务层的阈值、校验、清洗、缓存和兜底，不能让模型直接决定最终产品状态。

2. 图片打标与废片剔除：用视觉向量理解照片

图片打标和废片剔除主要使用 MobileCLIP2。它把图片编码成 512 维向量，再把标签 prompt、废片描述 prompt 编码到同一语义空间，通过相似度判断图片属于什么主题、是否疑似截图/文档/票据/模糊图等低价值内容。这里的大模型作用不是“生成文字”，而是提供可计算的视觉语义表示。

在产品链路中，aiTags 是后续搜索、推荐、故事生成和数字相册的基础。废片剔除则提前减少无效图片进入生成流程，提高后续模型调用和用户浏览的质量。详细实现可参考：Memoria-智能影记创新实训博客（一）：图片打标、废片剔除功能接口实现与界面展示。

3. 语义搜索：用 LLM 把自然语言变成搜索计划

语义搜索中，DeepSeek 的核心作用是“解析”，不是“找图”。用户输入“去年杭州的夜景”“春节团聚吃饺子的照片”“单人照，不要合影”这类自然语言后，系统会让 LLM 输出结构化 JSON，包括查询类型、时间范围、地点、粗标签、正向语义、召回语义和负向语义。真正执行搜索时，仍然由本地照片库、标签、时间地点和向量相似度完成。

这种方式把自然语言的灵活性和本地检索的可控性结合起来：LLM 负责理解用户意图，业务层负责执行和阈值判断；如果没有配置 API 或解析失败，还能回退到本地规则。详细实现可参考：Memoria-智能影记创新实训博客（二）：相册语义搜索功能接口实现与界面展示。

4. 故事生成：用 LLM 组织叙事，用本地 VLM 补视觉细节

故事生成是云端 LLM 最核心的创作场景。系统不会直接把照片丢给 DeepSeek，而是先整理每张图的标签、OCR、caption、时间、地点和用户配置，再让 DeepSeek 基于这些事实生成结构化故事 JSON。模型输出必须包含整篇 story、分图 sections 和 highlights，且 sections 数量要和图片数量一致。

在更强调视觉细节的模式下，系统会先使用本地 VLM 为部分图片生成 caption，再把这些 caption 和已有标签一起交给 DeepSeek。这样做的好处是：本地模型负责“看图补细节”，DeepSeek 负责“把细节写成故事”。如果本地 VLM 或 DeepSeek 不可用，系统还有本地保底故事，保证流程不中断。详细实现可参考：Memoria-智能影记创新实训博客（三）：故事生成功能接口实现与界面展示。

5. 端侧模型部署与本地 caption：让图片理解尽量留在本地

项目中端侧模型的价值，主要体现在本地 caption 和本地多模态理解上。Qwen3.5-0.8B / 本地 VLM 部署后，可以在手机侧为图片生成简短中文 caption，作为故事生成的补充线索。它不是替代 DeepSeek 写长故事，而是承担“看图说一句”的任务，让后续云端写作拿到更具体、更自然的素材。

这种分工也服务于隐私：需要直接看图的部分尽量在本地完成；云端 LLM 更多接收结构化文本线索。端侧部署过程可参考：Memoria-智能影记创新实训博客（四）：Qwen3.5-0.8B 模型的端侧部署与跑通。

6. 数字相册：用 LLM 做短文案与版式表达增强

数字相册中，大模型的使用重点从“写长故事”切换为“写适合版式的短文案”。相册本身由本地模板和排版服务生成，DeepSeek 主要用于 AI 写文案：在不改变图片顺序、不移动元素、不新增页面的前提下，重写标题、正文、题签和装饰短语，让故事结果更像一本精心设计的相册书。

这里的关键是边界清晰：相册结构、坐标、模板、元素校验由本地代码控制，LLM 只负责语言质感提升。这样既能利用模型的表达能力，又不会让排版结果失控。详细实现可参考：Memoria-智能影记创新实训博客（五）：数字相册功能接口实现与界面展示。

7. 创作推荐：把模型能力变成主动发现

创作推荐不是简单展示一组固定模板，而是把“预设主题”和“用户真实相册内容”结合起来。预设主题提供基础方向，例如春天气息、美食日记、愉快笑脸、城市散步、宠物陪伴、年度回顾等；而真正决定一条推荐是否成立的，是当前相册中图片的标签、caption、时间地点、语义向量和命中数量。也就是说，大模型能力不是停留在“我预先写了哪些主题”，而是进一步判断这些主题和用户相册里的真实内容是否匹配。

从效果上看，推荐主题更像是由模型从用户相册中“推测”出来的：如果某个用户大量出现餐桌、甜品、聚餐 caption，系统更容易推出“美食日记”或“热闹的餐桌”；如果相册中反复出现花草、树影、春日场景，就更容易出现“春天的气息”；如果照片中有大量笑脸、人像和相聚场景，就可能触发“愉快的笑脸”或“朋友与家人的相聚”。为了降低 LLM 调用成本，很多推荐查询会提前写成结构化 JSON，但最终是否展示，仍然取决于模型语义检索和当前相册内容的匹配结果。详细实现可参考：Memoria-智能影记创新实训博客（六）：创作推荐功能接口实现与界面展示。

8. 其他生成能力：字幕、配乐与发布文案

除了主线功能，LLM 还被用于一些创作辅助环节。例如视频生成前，可以根据故事正文和每张图片描述生成逐图字幕；发布页可以根据目标平台生成朋友圈、小红书、抖音或 B 站风格文案；配乐部分则先由 LLM 把中文故事主题转成英文 MusicGen prompt，再交给音乐生成模型生成背景音乐。

这些能力的共同点是：LLM 不再负责理解原图，而是基于已经整理好的故事和 caption 做二次表达。它们让生成结果更完整，但不会改变图片理解和故事素材的事实基础。

9. 统一原则：结构化、可控、可兜底

纵览整个项目，大模型应用始终遵循三个原则。

第一，结构化。语义搜索输出搜索计划 JSON，故事生成输出 story / sections / highlights JSON，数字相册输出文案 JSON，视频字幕输出 captions JSON。结构化输出让模型结果可以被代码校验和修复。

第二，可控。模型负责提升理解和表达上限，业务代码负责阈值、过滤、排序、校验、缓存和入库。例如标签需要清洗，推荐需要命中阈值，数字相册需要版式校验，caption 需要过滤脑补词。

第三，可兜底。没有 DeepSeek 时，语义搜索可以走本地规则；视觉 caption 不可用时，可以用本地模板生成；故事生成失败时，可以拼出保底故事；数字相册 AI 写文案失败时，保留现有相册；推荐不满足阈值时，直接不展示。

10. 总结

当前 Memoria 对大模型的使用，已经覆盖“理解照片、搜索照片、推荐照片、组织故事、生成相册、辅助发布”这一整条链路。但它的核心并不是堆模型，而是分工明确：MobileCLIP2 提供视觉语义底座，DeepSeek 负责结构化理解和语言创作，端侧 VLM 负责本地 caption，业务层负责可靠性和产品闭环。

这也是当前项目最重要的大模型应用经验：不要把大模型当成一个不可控的黑盒生成器，而是把它拆成可验证、可替换、可兜底的能力模块，让它真正嵌入产品流程，而不是悬浮在功能之外。