FireRedTTS-2 – 面向播客和聊天机器人的AI长对话语音生成

概述

FireRedTTS‑2 是一种用于多说话人对话生成的长格式流式 TTS 系统,可提供稳定、自然的语音,具有可靠的说话人切换和上下文感知的韵律。

长对话语音合成系统,可通过提供文本和可选参考音频生成自然流畅的语音输出,支持长对话场景下的连续发言,确保语气与节奏自然连贯,支持中文、英文、日文、韩文、法文、德文及俄文,具备零样本语音克隆能力,适用于播客、聊天机器人等多发言人场景,免费开源,使用 Python 开发。

亮点🔥

  • 长对话语音生成:目前支持 4 位说话者的 3 分钟对话,并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
  • 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆,适用于跨语言和代码切换场景。
  • 超低延迟:基于新的12.5Hz 流式语音标记器,我们采用了双变压器架构,该架构在文本语音交错序列上运行,从而实现了灵活的逐句生成并减少了首包延迟。具体而言,在 L20 GPU 上,我们的首包延迟低至 140ms,同时保持高质量的音频输出。
  • 强稳定性:我们的模型在独白和对话测试中都实现了高相似度和低WER/CER。
  • 随机音色生成:用于创建 ASR/语音交互数据。

演示

随机音色生成和多语言支持 多语言360p.mp4 

零样本播客生成 聊天克隆_360p.mp4 

针对特定演讲者进行精细调整的播客生成

⚠️演讲者声音:播客《肥话连篇》主持人“肥杰”和“惠子”。未经授权禁止使用。

⚠️声音来源:播客《肥话连篇》主播“肥杰”和“惠子”,尚未授权不能使用。 演示_v7_360p.mp4 

项目地址

github:https://github.com/FireRedTeam/FireRedTTS2

免责声明:

本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。侵删请致信E-mail:i@zcjun.com

其他:  侵删处理  – 关于本站   –  版权声明  –  隐私政策

AI工具实用工具推荐

Everywhere:适用于桌面的上下文感知 AI 助手,智能响应,无缝集成多个 LLM 和 MCP 工具

2025-12-4 18:19:46

AI工具实用工具推荐

DeepSeek OCR APP- 由 DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序,直接在线识别各种图像

2025-12-4 18:20:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧