Ti-Audio：一个端到端藏语语音语言大模型

而该藏语语音语言大模型与现有国内外领先大模型Gemini 3 Flash、deepseek V3.1、Hunyun-MT-7B、Monlam（莫兰）进行了测试评估，该大模型在语音翻译任务（Speech-to-Text, ST）、语音识别（Automatic Speech Recognition, ASR）等任务上的表现超越了其它模型, 在性别识别（Gender Recognition, GR)、说

Eric20050925

539人浏览 · 2026-04-19 19:28:21

Eric20050925 · 2026-04-19 19:28:21 发布

文末附有论文地址与测试数据集

相关论文《Ti-Audio: A Multi-Dialectal End-to-End Speech LLM for Tibetan》已公开于 arXiv。

网址：https://arxiv.org/abs/2604.11110

测试数据集公开在https://github.com/zi123l/MUC-Tibetan-Speech-LLM-Test-Dataset。

简介

该藏语语音语言大模型与现有国内外领先大模型Gemini 3 Flash、deepseek V3.1、Hunyun-MT-7B、Monlam（莫兰）进行了测试评估，该大模型在语音翻译任务（Speech-to-Text, ST）、语音识别（Automatic Speech Recognition, ASR）等任务上的表现超越了其它模型, 在性别识别（Gender Recognition, GR)、说话人情感识别（Speaker Emotion Recognition, SER)任务上部分超越了其他模型

技术创新

近期，语音大语言模型（Speech-LLMs）的研究取得了显著进展，极大提升了多模态交互能力。

然而，其在低资源和方言多样化环境中的应用仍面临挑战。

安多、康巴、卫藏三类方言的语言学差异

以藏语为例，如图所示，卫藏、安多、康巴三大方言在音系特征上存在较为明显的差异，包括声调、辅音、元音等维度的不同，这也使统一建模变得更加困难。正因如此，低资源条件下的藏语语音处理，不能简单照搬高资源语言的技术路径，而需要更贴合多方言实际情况的建模方法。

Ti-Audio 则采用了端到端建模思路，直接让模型从藏语语音输入走向文本理解与生成输出，把语音识别、语音翻译以及部分副语言任务放进同一个统一框架中。这意味着，模型不再只是“分步骤处理”，而是能够从整体上理解语音信息、语义信息和上下文关系，这对低资源语言来说尤其重要

Ti-Audio

Dynamic Q-Former Adapter

Ti-Audio 正是在这一背景下提出的。它不仅将语音识别、语音翻译以及部分副语言理解任务纳入同一个端到端框架，更进一步面向“多方言、低资源、变长语音输入”这一核心问题进行了专门设计。与传统“先识别、再翻译”的级联系统相比，这种统一建模方式能够减少误差逐级传递，更有利于模型从整体上学习语音信息、语义信息以及上下文之间的关联。

图中可以看到模型由多方言输入、动态数据平衡策略、语音编码器、Dynamic Q-Former Adapter 与 LoRA-LLM 共同组成。最终输出覆盖语音识别、语音翻译、情感分析和性别分析等任务，体现了端到端统一建模的整体思维

从图中的模型结构可以看到，Ti-Audio 以多方言语音作为输入，在前端引入 Dynamic Data Balancing Strategy，通过动态数据平衡缓解不同方言、不同任务之间的数据不均衡问题；随后，经由语音编码器和 Dynamic Q-Former Adapter，从变长语音中动态提取并压缩更关键的声学信息，再与 LoRA-LLM 连接，实现统一的语音理解与生成。论文的关键创新之一，就在于这个 Dynamic Q-Former Adapter：它并非对语音特征进行固定长度压缩，而是根据输入内容自适应地保留更有效的信息、减少冗余，从而提升语音—文本对齐的效率与稳定性。

整体来看，Ti-Audio 展示的不只是一个藏语任务模型，更是一种适用于低资源、多方言场景的端到端 Speech-LLM 建模思路。它将多方言协同学习、动态数据平衡和自适应跨模态对齐结合起来，为后续民族语言智能语音技术的发展提供了更具扩展性的技术路径。

实验验证

Ti-Audio在语音翻译和语音识别任务上均取得最优或显著领先结果。

语音翻译任务上，Ti-Audio 的平均 BLEU 达到 22.05，高于级联系统 mHuBERT + Gemini 3 Flash 的 21.32，也显著领先于 mHuBERT + DeepSeek V3.1、mHuBERT + Hunyuan-MT-7B、mHuBERT + Monlam 等组合方案。

语音识别任务上，Ti-Audio 的平均 WER 为 14.46%，相比 mHuBERT (CTC) 的 26.77% 下降超过 12 个百分点，同时也远优于 Meta Omnilingual 等大规模多语种基线。

换句话说，模型不仅“能听”，而且具备较强的语义纠错能力。

Ti-Audio 在性别识别中取得 99.60% 的总体准确率；在情感识别中，模型在“愤怒”等高唤醒类别上表现突出，也显示出面向复杂语音理解任务继续拓展的潜力

多方言联合训练是否真的有效？

Dynamic Q-Former Adapter 是否真的是性能提升的关键来源？

实验给出的答案是明确的。

统一多方言训练显著优于单方言模型；而一旦去掉 Dynamic Q-Former Adapter，模型在 ST 和 ASR 上都会出现明显退化，说明提升并非来自简单堆叠参数，而是来自更合理的对齐机制设计。

由Table 6可知

Ti-Audio 同时在 ST 与 ASR 上优于单方言模型

Table 7则显示去掉 Adapter 后，

ST 平均 BLEU 从 22.05 降至 15.37，ASR 平均 WER 从 14.46 上升至 27.51，创新模块的重要性非常直观。

藏语三方言分布与康巴方言的“桥梁”位置

论文还从语言学和声学分布角度解释了多方言协同为什么成立。

作者认为，康巴方言在藏语方言链中具有一定“桥梁”作用，能够帮助模型在不同方言之间实现更加自然的知识迁移。

最后，论文还给出了适配器效率分析。

相比线性投影基线，Dynamic Q-Former 在语音-文本长度相关性上更强，同时能把冗余语音信号压缩到更紧凑的 token 比例，体现出更高效的跨模态桥接能力。

写在最后

Ti-Audio 的出现说明，低资源语言并不是不能做大模型，而是需要更符合自身特点的技术路线。也正因此，这项工作不仅是一篇论文意义上的突破，也为民族语言数字化保护、智能教育、公共服务与文化传播等方向带来了新的可能

附：论文与数据链接

论文地址：https://arxiv.org/abs/2604.11110

测试数据集：https://github.com/zi123l/MUC-Tibetan-Speech-LLM-Test-Dataset

部分图片素材来自于网络，侵权请联系作者删除

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2026最新：国内直连调用Grok-4.3与免费Gemini-2.5-flash-lite（无需翻墙/OpenClaw+PyCharm+Python全场景）

DeepSeek技术社区

DeepSeek V4.1 vs Ollama vs LocalClaw：Mac本地AI工具横评

上周，DeepSeek V4.1 正式开源，刷新了开源大模型的多项基准测试记录。消息一出，技术圈立刻炸开了锅——“这参数规模，真的能在本地跑？作为Mac用户，我完全理解这种心情。第一阶段：本地跑不起来，只有云端能用第二阶段：能跑，但配置极其复杂，普通开发者被劝退第三阶段：Ollama出现，门槛降低，但还是要敲命令第四阶段：以LocalClaw为代表的一键部署工具，数据不上云，日常零费用今天这篇文章

DeepSeek技术社区

DeepSeek V4 API实战：从零搭建AI编程助手全流程

本文介绍了如何利用DeepSeekV4 API从零搭建一个功能完整的AI编程助手。DeepSeekV4凭借其成本优势（$0.14/百万Token输入）和卓越的代码能力（Codeforces 3206分），成为构建编程助手的理想选择。文章详细讲解了环境准备、核心功能实现（代码补全、Bug修复、代码解释、重构建议）、提示词工程最佳实践，并提供了一个交互式命令行Demo。通过实际使用体验，作者总结了流式