语音识别、语音检测、标点恢复、说话人分离、情感检测、音频事件识别——统一的 Python 接口,一次调用完成全部处理。50+ 语言覆盖,私有化部署,生产就绪。
从原始音频到结构化输出的完整语音理解流水线,一次调用全部搞定
端到端 ASR,支持 50+ 语言,中文含 7 大方言及 26 种地域口音,自动语种检测
毫秒级语音活动检测,自适应静音阈值,精确切分语音段与静音段
自动添加标点符号和逆文本正则化,输出可直接阅读的规范文本
自动识别"谁说了什么",为每句话标注说话人 ID,支持多人会议
识别开心、悲伤、愤怒、中性情感状态,适用于客服质检和舆情分析
检测背景音乐、掌声、笑声、哭声等声学事件,完整音频场景理解
三步开始:安装 → 选择场景 → 调用
Python 3.8+ · GPU 8GB+ · 支持 Linux / macOS
适合会议录音、视频字幕、批量音频处理。自动包含 VAD 分段、标点、时间戳和说话人标注。
适合实时字幕、直播转写、语音助手。基于 WebSocket 协议,确认文字锁定不变,新文字持续更新。
标准 /v1/audio/transcriptions 接口,LangChain、AutoGen、Dify、Coze 等框架可直接调用,无需修改代码。
184 文件 / 11,541 秒 / Fun-ASR-Nano
| 模型 | 引擎 | RTFx | CER | 备注 |
|---|---|---|---|---|
| Fun-ASR-Nano | PyTorch | 21 | 8.06% | 基准 |
| Fun-ASR-Nano | vLLM batch | 340 | 8.20% | 16x 加速 |
| Fun-ASR-Nano | 离线服务 | 102 | 8.14% | 含 VAD + 时间戳 |
| GLM-ASR-Nano | vLLM batch | 265 | 12.93% | 社区模型 |
准确率与 PyTorch 完全一致(CER 差 < 0.2%),速度提升 16–340 倍。完整报告 →
观看 FunASR 实时语音识别效果