不止中英双语！港科大 LLaSA 模型让 AI 语音带上喜怒哀乐，15秒克隆你的声音！

港科大 LLaSA 模型无疑是 TTS 领域的一个重要里程碑。它不仅在中英双语合成上达到了极高水准，更在情感表达和快速语音克隆方面取得了显著突破，极大地提升了合成语音的自然度和个性化程度。

努力犯错

676人浏览 · 2025-04-02 01:30:00

努力犯错 · 2025-04-02 01:30:00 发布

今天我们要聊一个在人工智能语音合成（TTS）领域掀起波澜的开源新星——来自香港科技大学音频实验室 (HKUST Audio) 的 LLaSA 模型。你是否厌倦了那些平淡、缺乏感情的机器语音？是否梦想过让 AI 不仅能“说人话”，更能“说有感情的人话”，甚至能快速模仿任何你喜欢的声音？LLaSA 的出现，正让这一切变得触手可及！

AI快站下载模型

https://aifasthub.com/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

告别“机器人腔”，拥抱自然情感表达

传统的 TTS 系统往往在处理中英文混合或者表达细腻情感时显得力不从心。而 LLaSA 的一大突破，就在于其强大的情感表达能力。

想象一下，你的 AI 助手不仅能播报天气，还能用担忧的语气提醒你带伞；有声读物中的角色不再是千篇一律的语调，而是能根据情节展现出喜悦、愤怒、悲伤甚至悄声耳语；虚拟主播也能根据内容调动情绪，与观众产生更深的情感共鸣。

LLaSA 通过在海量数据（据称高达 250,000 小时的中英双语语音数据）上的训练，学习到了人类语音中丰富的韵律和情感模式。这使得它能够根据输入文本的语义，生成带有对应情感色彩的语音，让 AI 的声音真正“活”起来。

关键特性：
- 自然度高：生成语音流畅、清晰，接近真人发声。
- 情感丰富：支持多种情感表达（如开心、生气、难过、平静、耳语等），让语音更具感染力。
- 中英双语无缝切换：在同一段语音中流畅处理中英文，满足复杂场景需求。

15秒！极速克隆你的专属声音

LLaSA 的另一个“杀手锏”是其零样本/少样本语音克隆 (Voice Cloning) 能力。这意味着什么？你只需要提供一段非常短的目标语音（官方示例中提到仅需 15 秒），LLaSA 就能够捕捉到该语音独特的音色、风格甚至情感特征，并用这种声音来说出任何你想要转换的文本！

这项技术彻底改变了个性化语音合成的门槛。无论是想让 AI 用你自己的声音读新闻，为个人项目创建独特的旁白，还是为虚拟形象赋予特定的声音身份，LLaSA 的快速克隆能力都提供了前所未有的便利。

语音克隆亮点：
- 样本需求极低：最少仅需 15 秒目标语音即可实现克隆。
- 高保真度：能较好地还原目标声音的音色和风格。
- 保留情感/风格：克隆时不仅模仿音色，也能一定程度迁移原语音的情感或说话风格。

技术探秘：LLM + Codec 的强强联合

LLaSA 的出色表现并非偶然，其背后是巧妙的技术架构。它创新性地将大型语言模型 (LLM) 的强大能力引入到了语音合成领域。

LLaSA 基于 Meta 开源的 LLaMA 系列模型（已发布基于 Llama 1B, 3B, 8B 参数量的版本）进行微调。我们知道 LLM 在理解文本、处理序列信息方面具有天然优势。为了让 LLM 处理语音，LLaSA 引入了先进的音频编解码器 (Audio Codec)，如 XCodec2。

这个 Codec 的作用是将连续的语音波形信号，转换成离散的、类似文本 Token 的单元。这样一来，语音合成任务就巧妙地转化为了一个类似语言模型的“序列到序列”生成任务。LLM 负责理解输入文本的语义和情感，并预测出对应的语音 Token 序列，最后再由 Codec 将这些 Token 解码还原成高质量的语音波形。