Memoria-智能影记创新实训博客(七):大模型在当前项目中的应用总结
Memoria-智能影记创新实训博客(七):大模型在当前项目中的应用总结
博客主题:大模型能力在 Memoria 主线功能中的分层应用
博客总结:前六篇博客已经分别介绍了图片打标、语义搜索、故事生成、端侧模型部署、数字相册和创作推荐。本篇不再重复每个功能的实现细节,而是从整体视角总结:当前项目到底用了哪些大模型能力,它们分别解决什么问题,以及为什么要这样分层设计。
1. 总体思路
Memoria 不是把所有任务都交给一个大模型,而是把模型能力拆成三层:第一层是 MobileCLIP2 这类视觉-文本向量模型,负责把图片和文字放进同一个语义空间;第二层是 DeepSeek 这类语言模型,负责自然语言解析、结构化生成和文案创作;第三层是 Qwen3.5-0.8B / 本地 VLM 这类端侧模型,负责在不上传原图的前提下补充图片 caption 或进行轻量视觉理解。
这种设计的核心是:能本地完成的理解尽量本地完成,需要语言组织和复杂推理时再调用云端 LLM;所有模型输出都必须经过业务层的阈值、校验、清洗、缓存和兜底,不能让模型直接决定最终产品状态。
2. 图片打标与废片剔除:用视觉向量理解照片
图片打标和废片剔除主要使用 MobileCLIP2。它把图片编码成 512 维向量,再把标签 prompt、废片描述 prompt 编码到同一语义空间,通过相似度判断图片属于什么主题、是否疑似截图/文档/票据/模糊图等低价值内容。这里的大模型作用不是“生成文字”,而是提供可计算的视觉语义表示。
在产品链路中,aiTags 是后续搜索、推荐、故事生成和数字相册的基础。废片剔除则提前减少无效图片进入生成流程,提高后续模型调用和用户浏览的质量。详细实现可参考:Memoria-智能影记创新实训博客(一):图片打标、废片剔除功能接口实现与界面展示。
3. 语义搜索:用 LLM 把自然语言变成搜索计划
语义搜索中,DeepSeek 的核心作用是“解析”,不是“找图”。用户输入“去年杭州的夜景”“春节团聚吃饺子的照片”“单人照,不要合影”这类自然语言后,系统会让 LLM 输出结构化 JSON,包括查询类型、时间范围、地点、粗标签、正向语义、召回语义和负向语义。真正执行搜索时,仍然由本地照片库、标签、时间地点和向量相似度完成。
这种方式把自然语言的灵活性和本地检索的可控性结合起来:LLM 负责理解用户意图,业务层负责执行和阈值判断;如果没有配置 API 或解析失败,还能回退到本地规则。详细实现可参考:Memoria-智能影记创新实训博客(二):相册语义搜索功能接口实现与界面展示。
4. 故事生成:用 LLM 组织叙事,用本地 VLM 补视觉细节
故事生成是云端 LLM 最核心的创作场景。系统不会直接把照片丢给 DeepSeek,而是先整理每张图的标签、OCR、caption、时间、地点和用户配置,再让 DeepSeek 基于这些事实生成结构化故事 JSON。模型输出必须包含整篇 story、分图 sections 和 highlights,且 sections 数量要和图片数量一致。
在更强调视觉细节的模式下,系统会先使用本地 VLM 为部分图片生成 caption,再把这些 caption 和已有标签一起交给 DeepSeek。这样做的好处是:本地模型负责“看图补细节”,DeepSeek 负责“把细节写成故事”。如果本地 VLM 或 DeepSeek 不可用,系统还有本地保底故事,保证流程不中断。详细实现可参考:Memoria-智能影记创新实训博客(三):故事生成功能接口实现与界面展示。
5. 端侧模型部署与本地 caption:让图片理解尽量留在本地
项目中端侧模型的价值,主要体现在本地 caption 和本地多模态理解上。Qwen3.5-0.8B / 本地 VLM 部署后,可以在手机侧为图片生成简短中文 caption,作为故事生成的补充线索。它不是替代 DeepSeek 写长故事,而是承担“看图说一句”的任务,让后续云端写作拿到更具体、更自然的素材。
这种分工也服务于隐私:需要直接看图的部分尽量在本地完成;云端 LLM 更多接收结构化文本线索。端侧部署过程可参考:Memoria-智能影记创新实训博客(四):Qwen3.5-0.8B 模型的端侧部署与跑通。
6. 数字相册:用 LLM 做短文案与版式表达增强
数字相册中,大模型的使用重点从“写长故事”切换为“写适合版式的短文案”。相册本身由本地模板和排版服务生成,DeepSeek 主要用于 AI 写文案:在不改变图片顺序、不移动元素、不新增页面的前提下,重写标题、正文、题签和装饰短语,让故事结果更像一本精心设计的相册书。
这里的关键是边界清晰:相册结构、坐标、模板、元素校验由本地代码控制,LLM 只负责语言质感提升。这样既能利用模型的表达能力,又不会让排版结果失控。详细实现可参考:Memoria-智能影记创新实训博客(五):数字相册功能接口实现与界面展示。
7. 创作推荐:把模型能力变成主动发现
创作推荐不是简单展示一组固定模板,而是把“预设主题”和“用户真实相册内容”结合起来。预设主题提供基础方向,例如春天气息、美食日记、愉快笑脸、城市散步、宠物陪伴、年度回顾等;而真正决定一条推荐是否成立的,是当前相册中图片的标签、caption、时间地点、语义向量和命中数量。也就是说,大模型能力不是停留在“我预先写了哪些主题”,而是进一步判断这些主题和用户相册里的真实内容是否匹配。
从效果上看,推荐主题更像是由模型从用户相册中“推测”出来的:如果某个用户大量出现餐桌、甜品、聚餐 caption,系统更容易推出“美食日记”或“热闹的餐桌”;如果相册中反复出现花草、树影、春日场景,就更容易出现“春天的气息”;如果照片中有大量笑脸、人像和相聚场景,就可能触发“愉快的笑脸”或“朋友与家人的相聚”。为了降低 LLM 调用成本,很多推荐查询会提前写成结构化 JSON,但最终是否展示,仍然取决于模型语义检索和当前相册内容的匹配结果。详细实现可参考:Memoria-智能影记创新实训博客(六):创作推荐功能接口实现与界面展示。
8. 其他生成能力:字幕、配乐与发布文案
除了主线功能,LLM 还被用于一些创作辅助环节。例如视频生成前,可以根据故事正文和每张图片描述生成逐图字幕;发布页可以根据目标平台生成朋友圈、小红书、抖音或 B 站风格文案;配乐部分则先由 LLM 把中文故事主题转成英文 MusicGen prompt,再交给音乐生成模型生成背景音乐。
这些能力的共同点是:LLM 不再负责理解原图,而是基于已经整理好的故事和 caption 做二次表达。它们让生成结果更完整,但不会改变图片理解和故事素材的事实基础。
9. 统一原则:结构化、可控、可兜底
纵览整个项目,大模型应用始终遵循三个原则。
第一,结构化。语义搜索输出搜索计划 JSON,故事生成输出 story / sections / highlights JSON,数字相册输出文案 JSON,视频字幕输出 captions JSON。结构化输出让模型结果可以被代码校验和修复。
第二,可控。模型负责提升理解和表达上限,业务代码负责阈值、过滤、排序、校验、缓存和入库。例如标签需要清洗,推荐需要命中阈值,数字相册需要版式校验,caption 需要过滤脑补词。
第三,可兜底。没有 DeepSeek 时,语义搜索可以走本地规则;视觉 caption 不可用时,可以用本地模板生成;故事生成失败时,可以拼出保底故事;数字相册 AI 写文案失败时,保留现有相册;推荐不满足阈值时,直接不展示。
10. 总结
当前 Memoria 对大模型的使用,已经覆盖“理解照片、搜索照片、推荐照片、组织故事、生成相册、辅助发布”这一整条链路。但它的核心并不是堆模型,而是分工明确:MobileCLIP2 提供视觉语义底座,DeepSeek 负责结构化理解和语言创作,端侧 VLM 负责本地 caption,业务层负责可靠性和产品闭环。
这也是当前项目最重要的大模型应用经验:不要把大模型当成一个不可控的黑盒生成器,而是把它拆成可验证、可替换、可兜底的能力模块,让它真正嵌入产品流程,而不是悬浮在功能之外。
更多推荐



所有评论(0)