TTS（声音克隆）模型 Playground 使用手册

TTS Playground 是 Herdsman 为语音合成模型（如 Qwen3-TTS）提供的专用测试界面。现以 声音克隆（Voice Clone） 功能进行介绍，允许用户提供一段参考音频，让模型模仿该音频的音色来朗读新的文本。

启动 TTS 模型

屏幕截图 2026-06-02 153426

TTS Playground 界面分为左侧参数区、中间脚本区和右侧监控区。

屏幕截图 2026-06-02 152746

基础设置：
- 语言：下拉选择（如自动），指定合成文本的语言类型
- 语速：滑动条控制（默认值为 1），向右滑动加快，向左减慢
高级设置：
- 输出模式：
  - 非流式（截图选中）：等待全部音频生成完毕后一次性播放，适合短文本
  - 流式/实时：边生成边播放，延迟更低（具体取决于模型能力）
声音（克隆核心）：
- 参考音频：输入想要模仿的声音来源，支持 本地文件路径、网络 URL 或 Base64 编码
- 参考文本：输入参考音频中对应的文字内容。提供准确的参考文本能显著提高克隆的准确度。

文本输入：
- 在上方文本框输入您希望模型朗读的内容
- 示例："你好呀，今天过得怎么样？Welcome to Herdsman voice playground."
- 支持中英文混合输入及标点符号停顿
功能标签：右上角提供中文、英文、情绪标签，用于快速切换输入提示或调整合成风格
结果展示：
- 字幕/波形区：生成后的字幕会显示在此处
- 音频播放器：底部提供标准的播放控件（播放/暂停、进度条、音量）
控制按钮：
- 生成：点击开始合成语音
- 停止：中断当前的生成任务

运行状态：
- TTFA / RTF：首字响应时间与实时率
- 延迟 / 分块：生成延迟及数据块大小
- 硬件占用：CPU、GPU、内存实时监控
运行日志：
- 显示模型加载状态（Selected qwen3-tts-voiceclone）及音频能力初始化信息

注意：

参考文本的重要性：如果是做声音克隆，务必准确填写参考文本。如果参考文本和参考音频对不上，模型可能无法正确学习音色。

格式支持：参考音频通常支持 WAV、MP3 等常见格式，具体取决于模型后端支持。