TTS(声音克隆)模型 Playground 使用手册

TTS Playground 是 Herdsman 为语音合成模型(如 Qwen3-TTS)提供的专用测试界面。现以 声音克隆(Voice Clone) 功能进行介绍,允许用户提供一段参考音频,让模型模仿该音频的音色来朗读新的文本。

启动 TTS 模型

  1. 进入 模型中心 界面
  2. 在模型列表中寻找带有 TTS语音合成 标签的模型(如 Qwen3-TTS 声音克隆
  3. 点击模型卡片上的 立即启动 按钮
  4. 待模型状态变为 就绪 后,点击卡片进入 Playground 界面

屏幕截图 2026-06-02 153426

界面功能详解

TTS Playground 界面分为左侧参数区、中间脚本区和右侧监控区。

屏幕截图 2026-06-02 152746

参数设置(左侧边栏)

  • 基础设置
    • 语言:下拉选择(如 自动),指定合成文本的语言类型
    • 语速:滑动条控制(默认值为 1),向右滑动加快,向左减慢
  • 高级设置
    • 输出模式
      • 非流式(截图选中):等待全部音频生成完毕后一次性播放,适合短文本
      • 流式/实时:边生成边播放,延迟更低(具体取决于模型能力)
  • 声音(克隆核心)
    • 参考音频:输入想要模仿的声音来源,支持 本地文件路径网络 URLBase64 编码
    • 参考文本:输入参考音频中对应的文字内容。提供准确的参考文本能显著提高克隆的准确度。

脚本工作台(中间主区域)

  • 文本输入
    • 在上方文本框输入您希望模型朗读的内容
    • 示例:"你好呀,今天过得怎么样?Welcome to Herdsman voice playground."
    • 支持中英文混合输入及标点符号停顿
  • 功能标签:右上角提供 中文英文情绪 标签,用于快速切换输入提示或调整合成风格
  • 结果展示
    • 字幕/波形区:生成后的字幕会显示在此处
    • 音频播放器:底部提供标准的播放控件(播放/暂停、进度条、音量)
  • 控制按钮
    • 生成:点击开始合成语音
    • 停止:中断当前的生成任务

运行状态监控(右侧边栏)

  • 运行状态
    • TTFA / RTF:首字响应时间与实时率
    • 延迟 / 分块:生成延迟及数据块大小
    • 硬件占用:CPU、GPU、内存实时监控
  • 运行日志
    • 显示模型加载状态(Selected qwen3-tts-voiceclone)及音频能力初始化信息

快速操作流程(声音克隆模式)

  1. 准备素材
    • 准备一段清晰的 参考音频(5-10 秒为宜)
    • 准备好录音对应的 参考文本(录音里具体说了什么字)
  2. 设置克隆参数
    • 在左侧 声音 栏的 参考音频 框中填入音频路径或 URL
    • 参考文本 框中填入对应的文字
  3. 编写脚本 — 在中间 脚本工作台 输入您想让他说的话
  4. 调整参数 — 根据需要调整 语速(如设为 1.2 倍速)
  5. 生成与试听
    • 点击左下角 生成 按钮
    • 等待生成完成后,使用底部播放器试听效果。如果音色不像,请检查参考音频是否清晰,或尝试更换参考文本

注意:

  • 参考文本的重要性:如果是做声音克隆,务必准确填写参考文本。如果参考文本和参考音频对不上,模型可能无法正确学习音色。
  • 格式支持:参考音频通常支持 WAV、MP3 等常见格式,具体取决于模型后端支持。