Ti-Audio:一个端到端藏语语音语言大模型
而该藏语语音语言大模型与现有国内外领先大模型Gemini 3 Flash、deepseek V3.1、Hunyun-MT-7B、Monlam(莫兰)进行了测试评估,该大模型在语音翻译任务(Speech-to-Text, ST)、语音识别(Automatic Speech Recognition, ASR)等任务上的表现超越了其它模型, 在性别识别(Gender Recognition, GR)、说
文末附有论文地址与测试数据集


相关论文《Ti-Audio: A Multi-Dialectal End-to-End Speech LLM for Tibetan》已公开于 arXiv。
网址:https://arxiv.org/abs/2604.11110
测试数据集公开在https://github.com/zi123l/MUC-Tibetan-Speech-LLM-Test-Dataset。
1
简介


该藏语语音语言大模型与现有国内外领先大模型Gemini 3 Flash、deepseek V3.1、Hunyun-MT-7B、Monlam(莫兰)进行了测试评估,该大模型在语音翻译任务(Speech-to-Text, ST)、语音识别(Automatic Speech Recognition, ASR)等任务上的表现超越了其它模型, 在性别识别(Gender Recognition, GR)、说话人情感识别(Speaker Emotion Recognition, SER)任务上部分超越了其他模型
2
技术创新
近期,语音大语言模型(Speech-LLMs)的研究取得了显著进展,极大提升了多模态交互能力。
然而,其在低资源和方言多样化环境中的应用仍面临挑战。

安多、康巴、卫藏三类方言的语言学差异
以藏语为例,如图所示,卫藏、安多、康巴三大方言在音系特征上存在较为明显的差异,包括声调、辅音、元音等维度的不同,这也使统一建模变得更加困难。正因如此,低资源条件下的藏语语音处理,不能简单照搬高资源语言的技术路径,而需要更贴合多方言实际情况的建模方法。
Ti-Audio 则采用了端到端建模思路,直接让模型从藏语语音输入走向文本理解与生成输出,把语音识别、语音翻译以及部分副语言任务放进同一个统一框架中。这意味着,模型不再只是“分步骤处理”,而是能够从整体上理解语音信息、语义信息和上下文关系,这对低资源语言来说尤其重要
Ti-Audio
Dynamic Q-Former Adapter
Ti-Audio 正是在这一背景下提出的。它不仅将语音识别、语音翻译以及部分副语言理解任务纳入同一个端到端框架,更进一步面向“多方言、低资源、变长语音输入”这一核心问题进行了专门设计。与传统“先识别、再翻译”的级联系统相比,这种统一建模方式能够减少误差逐级传递,更有利于模型从整体上学习语音信息、语义信息以及上下文之间的关联。

图中可以看到模型由多方言输入、动态数据平衡策略、语音编码器、Dynamic Q-Former Adapter 与 LoRA-LLM 共同组成。最终输出覆盖语音识别、语音翻译、情感分析和性别分析等任务,体现了端到端统一建模的整体思维
从图中的模型结构可以看到,Ti-Audio 以多方言语音作为输入,在前端引入 Dynamic Data Balancing Strategy,通过动态数据平衡缓解不同方言、不同任务之间的数据不均衡问题;随后,经由语音编码器和 Dynamic Q-Former Adapter,从变长语音中动态提取并压缩更关键的声学信息,再与 LoRA-LLM 连接,实现统一的语音理解与生成。论文的关键创新之一,就在于这个 Dynamic Q-Former Adapter:它并非对语音特征进行固定长度压缩,而是根据输入内容自适应地保留更有效的信息、减少冗余,从而提升语音—文本对齐的效率与稳定性。
整体来看,Ti-Audio 展示的不只是一个藏语任务模型,更是一种适用于低资源、多方言场景的端到端 Speech-LLM 建模思路。它将多方言协同学习、动态数据平衡和自适应跨模态对齐结合起来,为后续民族语言智能语音技术的发展提供了更具扩展性的技术路径。
3
实验验证

Ti-Audio在语音翻译和语音识别任务上均取得最优或显著领先结果。

语音翻译任务上,Ti-Audio 的平均 BLEU 达到 22.05,高于级联系统 mHuBERT + Gemini 3 Flash 的 21.32,也显著领先于 mHuBERT + DeepSeek V3.1、mHuBERT + Hunyuan-MT-7B、mHuBERT + Monlam 等组合方案。

语音识别任务上,Ti-Audio 的平均 WER 为 14.46%,相比 mHuBERT (CTC) 的 26.77% 下降超过 12 个百分点,同时也远优于 Meta Omnilingual 等大规模多语种基线。
换句话说,模型不仅“能听”,而且具备较强的语义纠错能力。

Ti-Audio 在性别识别中取得 99.60% 的总体准确率;在情感识别中,模型在“愤怒”等高唤醒类别上表现突出,也显示出面向复杂语音理解任务继续拓展的潜力
多方言联合训练是否真的有效?
Dynamic Q-Former Adapter 是否真的是性能提升的关键来源?
实验给出的答案是明确的。
统一多方言训练显著优于单方言模型;而一旦去掉 Dynamic Q-Former Adapter,模型在 ST 和 ASR 上都会出现明显退化,说明提升并非来自简单堆叠参数,而是来自更合理的对齐机制设计。

由Table 6可知
Ti-Audio 同时在 ST 与 ASR 上优于单方言模型
Table 7则显示去掉 Adapter 后,
ST 平均 BLEU 从 22.05 降至 15.37,ASR 平均 WER 从 14.46 上升至 27.51,创新模块的重要性非常直观。

藏语三方言分布与康巴方言的“桥梁”位置
论文还从语言学和声学分布角度解释了多方言协同为什么成立。
作者认为,康巴方言在藏语方言链中具有一定“桥梁”作用,能够帮助模型在不同方言之间实现更加自然的知识迁移。


最后,论文还给出了适配器效率分析。
相比线性投影基线,Dynamic Q-Former 在语音-文本长度相关性上更强,同时能把冗余语音信号压缩到更紧凑的 token 比例,体现出更高效的跨模态桥接能力。
4
写在最后
Ti-Audio 的出现说明,低资源语言并不是不能做大模型,而是需要更符合自身特点的技术路线。也正因此,这项工作不仅是一篇论文意义上的突破,也为民族语言数字化保护、智能教育、公共服务与文化传播等方向带来了新的可能

附:论文与数据链接
论文地址:https://arxiv.org/abs/2604.11110
测试数据集:https://github.com/zi123l/MUC-Tibetan-Speech-LLM-Test-Dataset
部分图片素材来自于网络,侵权请联系作者删除
更多推荐

所有评论(0)