简体中文

ASR 模型 Playground 使用手册

ASR（Automatic Speech Recognition）Playground 是 Herdsman 为 Sherpa-ONNX 等语音识别模型提供的专用测试界面。允许用户通过上传音频文件或录制麦克风声音，快速验证模型将语音转换为文本的能力。

启动 ASR 模型

进入 模型中心 界面
在模型列表中寻找带有 ASR 或 语音识别 标签的模型（如 sherpa-onnx 中文非流式 Paraformer Small）
点击模型卡片上的 立即启动 按钮
待模型状态变为就绪或 正在运行 后，点击卡片进入 Playground 界面

屏幕截图 2026-06-02 151933

界面功能详解

屏幕截图 2026-06-02 152007

基础设置与输入

语言选择（左侧）：提供语言下拉菜单（如自动），可根据音频内容手动指定语言以提高准确率
输入模式（顶部 Tab）：
- 文件：处理本地音频文件（WAV / MP3 / M4A 等）
- 麦克风：实时录制语音并识别

文件转写参数（核心区域）

推荐参数：最稳定的输入为 16 kHz 单声道 PCM WAV
兼容格式：也可尝试 FLAC / MP3 / M4A / OGG / WebM（需底层支持解码）
操作：拖入文件或点击 选择音频，然后点击转写

转写成功后的状态说明

当音频文件上传并完成转写后，界面会发生以下变化：

屏幕截图 2026-06-02 152212

转写结果展示区

字符统计：结果标题下方会显示识别出的字符数量（如 77 字符）
文本内容：下方文本框展示完整的识别结果
- 示例："repo 内置完善的二次开发 sdk 与可扩展插件接口支持本地化与私有化部署…"

运行状态监控（右侧边栏）

转写完成后，右侧面板会显示具体的性能数据：

延迟：本次转写的具体耗时（如 1726ms，约 1.7 秒）
硬件占用：
- CPU：处理时的 CPU 占用率（如 7%）
- GPU：GPU 占用率（如 4%）
- 内存：当前内存使用情况（如 26.85GB）

运行日志（右侧底部）

日志区域记录本次操作的详细信息：

INFO Transcription complete in 1726ms — 确认转写已完成及其耗时
INFO Transcription requested: ripple_tts_cloned.wav — 确认正在处理的文件名

常见问题与技巧

Q：为什么上传 MP3 文件后没有结果或报错？

A：Sherpa offline ASR 对格式要求较高。虽然界面显示"也可尝试 MP3"，但如果底层解码器不支持就会失败。最佳实践是先将音频转换为 16kHz 单声道 WAV 格式再上传。

Q：如何判断模型运行快慢？

A：观察右侧的延迟和 RTF（实时率）。如果音频时长 10 秒，延迟显示 1726ms（1.7秒），说明模型处理速度远快于播放速度，性能优秀。