在人工智能领域,多模态数据的交叉应用使多模态特征融合成为核心技术。由于文本、图像、语音等模态在特征维度与表征方式上差异巨大,早期简单拼接难以挖掘深层关联,而深度学习虽能实现动态交互,却面临信息冗余与模态特性模糊的挑战,亟需平衡语义一致性与细节保真度。

技术演进从单任务适配走向多层次交互。早期聚焦图文检索等单一应用,如今多模态大模型(MLLMs)推动分层融合,通过在视觉编码器不同层次提取特征,与语言模型中间层交互,实现渐进式整合,显著提升生成、推理能力,为内容创作、智能交互等领域带来新突破。

我给大家准备了12篇多模态特征融合相关论文和代码,都是顶刊顶会论文,可做大家工作和学习参考!

全部论文+开源代码需要的同学看文末!

【论文1】ECHOVIDEO: IDENTITY-PRESERVING HUMAN VIDEO GENERATION BY MULTIMODAL FEATURE FUSION

Sampling results of EchoVideo.

Sampling results of EchoVideo.

方法

Overall architecture of EchoVideo

Illustration of facial information injection methods

论文提出 EchoVideo 模型,基于扩散 Transformer(DiT)框架,通过多模态特征融合模块 IITF整合输入人脸图像的高层语义特征(如面部结构、身份细节)与文本提示语义,过滤遮挡、光照等无关信息;采用两阶段训练策略,第一阶段利用 IITF 学习高层身份特征,第二阶段随机引入浅层面部视觉信息(VAE 编码特征),平衡细节保真度与对浅层信息的依赖,实现面部身份与全身特征的一致生成。

创新点

Qualitative results

Qualitative results

  1. 多模态特征融合模块IITF:首次融合文本语义、图像语义与面部身份特征,通过面部特征对齐(映射局部细节特征至高层语义空间)和条件特征对齐(统一文本与面部特征的语义引导),解决模态间语义冲突,生成身份一致的视频内容。

  2. 两阶段训练策略:通过随机丢弃浅层面部视觉信息,迫使模型优先学习高层语义特征,避免“复制-粘贴”伪影,同时在训练后期引入浅层信息增强细节保真度,提升面部表情自然度与多视角一致性。

  3. 端到端身份保持框架:无需额外姿势控制信息,仅通过文本提示即可保留输入图像中的全身特征(如服装、发型),扩展身份保持范围至全身,降低用户操作门槛。

论文链接:https://arxiv.org/pdf/2501.13452

【论文2】Multi-Layer Visual Feature Fusion in Multimodal LLMs: Methods, Analysis, and Best Practices

Different Visual Features and Fusion Paradigms

Different Visual Features and Fusion Paradigms

方法

Framework of the four fusion strategies studied in this work. Blue lines represent the path passing through the projector.

Framework of the four fusion strategies studied in this work. Blue lines represent the path passing through the projector.

论文聚焦多模态大语言模型(MLLMs)中多层视觉特征融合问题,提出通过相似性分层选择(将视觉编码器层划分为开始、中间、结束阶段,选取代表性层特征)与跨层融合策略(分为输入阶段的外部融合和 LLM 中间层的内部融合,每种策略又分为引入额外模块的模块化融合和直接叠加的直接融合),系统探究最优层选择与融合方式。实验发现,外部直接融合(在输入阶段直接叠加多层视觉特征)性能最优且稳定,而内部融合在大规模数据下具潜力。

创新点

Pre-cross attention loss curves in pre-training stage under different layer sets.

Pre-cross attention loss curves in pre-training stage under different layer sets.

Architecture Comparisons between three Current Internal Modular Fusion Strategies.

Architecture Comparisons between three Current Internal Modular Fusion Strategies.

  1. 多层视觉特征选择框架:提出相似性分层(按特征余弦相似度划分阶段)和比例分层(按编码器深度比例划分)两种选择标准,发现从开始、中间、结束阶段各选一层特征的组合泛化性最佳,避免同阶段特征重复融合导致的性能下降。

  2. 融合策略分类与优化:将融合策略按位置(输入阶段/中间层)和模式(模块化/直接融合)分为四类,首次系统对比发现外部直接融合在多数场景下性能最优,参数效率更高,且无需额外模块即可有效整合多层特征。

  3. 数据与模型扩展性验证:通过调整训练数据规模(332k-737k样本)和模型组件(MobileLLaMA 1.4B至2.7B、CLIP至SigLIP编码器),验证外部融合策略在小模型和有限数据下的稳定性,及内部融合在大规模数据下的潜力。

论文链接:https://arxiv.org/abs/2503.06063

关注下方《AI前沿速递》🚀🚀🚀
回复“C272”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏
 

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐