SenseVoice-small-onnx语音转文字实战：支持mp3/wav/m4a/flac全格式

张

张建站

2026/4/29 7:23:41

10分钟阅读

SenseVoice-small-onnx语音转文字实战支持mp3/wav/m4a/flac全格式你是不是经常遇到这样的场景手头有一段重要的会议录音想快速整理成文字或者下载了一段外语学习音频想看看原文是什么。手动听写效率太低。找在线工具担心隐私和格式限制。今天我来带你体验一个能彻底解决这些痛点的本地语音识别方案——SenseVoice-small-onnx。它最大的特点就是开箱即用、格式全支持、识别速度快而且完全在你的电脑上运行数据安全有保障。简单来说这是一个基于ONNX量化技术的多语言语音识别模型。它能自动识别中文、粤语、英语、日语、韩语等超过50种语言还能分析说话人的情感和音频中的事件比如笑声、掌声。最棒的是处理一段10秒的音频推理时间只需要大约70毫秒快到几乎感觉不到等待。接下来我会手把手带你完成从环境搭建到实际使用的全过程。无论你是开发者想集成语音功能还是普通用户想找个好用的转写工具这篇指南都能帮到你。1. 环境准备与快速部署让我们先从最基础的步骤开始把服务跑起来。整个过程非常简单只需要几条命令。1.1 系统要求与依赖安装首先确保你的系统已经安装了Python 3.8或更高版本。打开你的终端Linux/macOS的Terminal或Windows的CMD/PowerShell然后执行下面的安装命令。# 安装所有必要的Python包 pip install funasr-onnx gradio fastapi uvicorn soundfile jieba这条命令会安装几个核心组件funasr-onnx: 这是SenseVoice模型的ONNX推理引擎是识别的核心。gradio: 用来构建一个简单直观的Web界面让你可以通过浏览器上传和识别音频。fastapi和uvicorn: 用于创建REST API服务方便其他程序调用。soundfile: 用于读取各种格式的音频文件。jieba: 中文分词库让中文识别结果更准确。如果安装过程比较慢可以考虑使用国内的镜像源比如清华源pip install funasr-onnx gradio fastapi uvicorn soundfile jieba -i https://pypi.tuna.tsinghua.edu.cn/simple1.2 一键启动语音识别服务依赖安装好后我们需要创建一个Python脚本来启动服务。新建一个文件命名为app.py然后把下面的代码复制进去。# app.py import os from funasr_onnx import SenseVoiceSmall from fastapi import FastAPI, File, UploadFile, Form from fastapi.responses import JSONResponse import gradio as gr import soundfile as sf import tempfile import uvicorn # 1. 指定模型路径优先使用缓存避免重复下载 MODEL_PATH /root/ai-models/danieldong/sensevoice-small-onnx-quant # 2. 初始化FastAPI应用 app FastAPI(titleSenseVoice 语音识别服务) # 3. 加载模型服务启动时加载一次后续复用 print(正在加载语音识别模型...) try: # 这里使用量化后的模型体积小、速度快 model SenseVoiceSmall(MODEL_PATH, batch_size10, quantizeTrue) print(模型加载成功) except Exception as e: print(f模型加载失败: {e}) model None # 4. 核心的语音转写函数 def transcribe_audio(audio_path, languageauto, use_itnTrue): 将音频文件转为文字 if model is None: return {error: 模型未加载成功} try: # 调用模型进行识别 # languageauto 表示自动检测语言 results model([audio_path], languagelanguage, use_itnuse_itn) return {text: results[0]} except Exception as e: return {error: f识别失败: {str(e)}} # 5. 创建REST API接口 app.post(/api/transcribe) async def api_transcribe( file: UploadFile File(...), language: str Form(auto), use_itn: bool Form(True) ): API接口上传音频文件返回转写文字 # 保存上传的临时文件 with tempfile.NamedTemporaryFile(deleteFalse, suffixos.path.splitext(file.filename)[1]) as tmp_file: content await file.read() tmp_file.write(content) temp_path tmp_file.name # 调用转写函数 result transcribe_audio(temp_path, language, use_itn) # 清理临时文件 os.unlink(temp_path) return JSONResponse(contentresult) app.get(/health) async def health_check(): 健康检查接口 return {status: healthy, model_loaded: model is not None} # 6. 创建Gradio Web界面 def gradio_transcribe(audio_file, language, use_itn): Gradio界面使用的转写函数 if audio_file is None: return 请先上传音频文件 result transcribe_audio(audio_file.name, language, use_itn) if error in result: return f错误: {result[error]} return result[text] # 构建Gradio界面 demo gr.Interface( fngradio_transcribe, inputs[ gr.Audio(typefilepath, label上传音频文件), gr.Dropdown( choices[auto, zh, yue, en, ja, ko], valueauto, label识别语言 ), gr.Checkbox(valueTrue, label启用智能文本格式化ITN) ], outputsgr.Textbox(label识别结果, lines10), titleSenseVoice 语音识别演示, description上传音频文件自动转换为文字。支持mp3, wav, m4a, flac等格式。 ) # 7. 将Gradio应用挂载到FastAPI app gr.mount_gradio_app(app, demo, path/) # 8. 启动服务 if __name__ __main__: print(\n服务启动信息) print(- Web界面: http://localhost:7860) print(- API文档: http://localhost:7860/docs) print(- 健康检查: http://localhost:7860/health) print(\n正在启动服务...) uvicorn.run(app, host0.0.0.0, port7860)保存好这个文件后回到终端运行它python app.py --host 0.0.0.0 --port 7860你会看到模型开始加载第一次运行需要下载模型大约230MB加载成功后终端会显示访问地址。现在打开你的浏览器访问http://localhost:7860就能看到语音识别的Web界面了。2. 三种使用方式详解服务启动后你可以通过三种不同的方式来使用它适应不同的需求场景。2.1 方式一Web界面最简单这是最适合新手和快速测试的方式。打开浏览器访问http://localhost:7860你会看到一个简洁的界面。操作步骤点击上传区域选择你的音频文件mp3、wav、m4a、flac都可以。在“识别语言”下拉框中选择语言。如果你不确定音频是什么语言就选“auto”自动检测。确保“启用智能文本格式化”是勾选状态推荐。点击“提交”按钮。稍等片刻对于1分钟的音频通常1-2秒就能完成识别结果就会显示在下面的文本框中。你可以直接复制这些文字使用。界面特点拖拽上传支持直接把音频文件拖到上传区域实时预览上传后可以看到音频波形图批量处理虽然界面一次显示一个但后台支持批量处理2.2 方式二API接口调用适合开发者如果你想在自己的程序里集成语音识别功能或者想要批量处理大量音频文件API接口是最佳选择。API地址http://localhost:7860/api/transcribe调用示例使用curl命令# 最基本的调用使用自动语言检测 curl -X POST http://localhost:7860/api/transcribe \ -F file我的录音.wav # 指定中文识别 curl -X POST http://localhost:7860/api/transcribe \ -F file会议录音.mp3 \ -F languagezh # 指定英语识别并关闭智能文本格式化 curl -X POST http://localhost:7860/api/transcribe \ -F fileenglish_podcast.m4a \ -F languageen \ -F use_itnfalseAPI返回格式{ text: 这是识别出来的文字内容。 }如果出错了会返回类似这样的信息{ error: 错误描述信息 }Python代码调用示例如果你用Python开发可以这样调用import requests def transcribe_with_api(audio_file_path, languageauto): 使用API接口转写音频 api_url http://localhost:7860/api/transcribe with open(audio_file_path, rb) as f: files {file: f} data {language: language, use_itn: true} response requests.post(api_url, filesfiles, datadata) if response.status_code 200: result response.json() if text in result: return result[text] else: return fAPI错误: {result.get(error, 未知错误)} else: return f请求失败状态码: {response.status_code} # 使用示例 text transcribe_with_api(我的音频.wav, languagezh) print(f识别结果: {text})2.3 方式三Python直接调用最高效对于需要高性能、低延迟的场景或者想要完全控制识别过程可以直接在Python代码中调用模型。from funasr_onnx import SenseVoiceSmall # 初始化模型 # 注意这里的路径要和app.py中的MODEL_PATH一致 model_path /root/ai-models/danieldong/sensevoice-small-onnx-quant model SenseVoiceSmall(model_path, batch_size10, quantizeTrue) # 单个文件识别 audio_file test.wav result model([audio_file], languageauto, use_itnTrue) print(f识别结果: {result[0]}) # 批量识别一次处理多个文件效率更高 audio_files [audio1.wav, audio2.mp3, audio3.m4a] batch_results model(audio_files, languagezh, use_itnTrue) for i, text in enumerate(batch_results): print(f文件 {audio_files[i]} 的识别结果: {text}) # 高级用法获取详细识别信息 detailed_results model(audio_files, languageauto, use_itnTrue, return_rawTrue) # 这里会返回更详细的信息包括时间戳、置信度等直接调用的优势零网络延迟完全在本地内存中处理批量处理高效一次可以处理多个文件完全控制可以调整更多参数获取更详细的结果3. 核心功能与实用技巧了解了基本用法后我们来看看SenseVoice-small-onnx的一些高级功能和实用技巧。3.1 多语言识别实战这个模型支持超过50种语言但最常用的是下面几种。你可以通过语言代码来指定识别语言语言代码语言使用场景auto自动检测不确定语言时使用模型会自动判断zh中文普通话会议录音、讲座、中文播客yue粤语粤语对话、粤语歌曲歌词识别en英语英语学习材料、国际会议、英文播客ja日语日语学习、动漫对话、日文歌曲ko韩语韩语学习、韩剧对话、K-pop歌曲自动检测的准确度如何在实际测试中对于中英文混合的音频自动检测的准确率很高。但如果音频很短比如少于3秒或者背景噪音很大可能会判断错误。这时候手动指定语言会更可靠。3.2 智能文本格式化ITN是什么ITN是Inverse Text Normalization的缩写中文叫逆文本正则化。听起来很专业其实功能很简单实用。没有ITN的情况音频中说今天花了三百五十元识别结果今天花了三百五十元开启ITN的情况音频中说今天花了三百五十元识别结果今天花了350元ITN还能做什么数字转换三点五 → 3.5百分比转换百分之二十 → 20%货币转换五百美元 → 500美元日期时间二零二三年十月一日 → 2023年10月1日什么时候关闭ITN如果你处理的是诗歌、歌词、或者需要保留原始口语表达的文本可以关闭ITN保持原汁原味。3.3 支持哪些音频格式这是很多人关心的问题。SenseVoice-small-onnx通过soundfile库支持几乎所有常见音频格式格式说明常见用途.wav无损音频格式专业录音、高质量音频.mp3有损压缩格式音乐文件、播客、最常见格式.m4aAAC编码格式iPhone录音、iTunes音频.flac无损压缩格式高质量音乐、音频存档.ogg开源音频格式网页音频、游戏音效.aiff苹果无损格式Mac系统音频格式转换建议如果你的音频格式比较特殊可以用ffmpeg转换# 安装ffmpeg如果还没安装 # Ubuntu/Debian: sudo apt install ffmpeg # macOS: brew install ffmpeg # 转换为wav格式 ffmpeg -i input.xxx output.wav3.4 处理长音频文件模型对单次处理的音频长度没有硬性限制但过长的音频比如超过30分钟可能会占用较多内存。处理长音频的建议# 方法1直接处理长音频简单但可能内存占用高 long_result model([2小时会议录音.mp3], languagezh) print(f全长识别: {long_result[0][:500]}...) # 只打印前500字符 # 方法2分段处理推荐用于超长音频 import librosa def transcribe_long_audio(audio_path, segment_length600, languagezh): 将长音频分段识别 # 加载音频 y, sr librosa.load(audio_path, sr16000) # 重采样到16kHz full_text total_samples len(y) segment_samples segment_length * sr # 每段10分钟 for start in range(0, total_samples, segment_samples): end min(start segment_samples, total_samples) segment y[start:end] # 保存临时分段文件 temp_path ftemp_segment_{start//sr}.wav sf.write(temp_path, segment, sr) # 识别该分段 segment_text model([temp_path], languagelanguage)[0] full_text segment_text \n # 清理临时文件 os.remove(temp_path) print(f已处理 {end//sr} 秒...) return full_text # 使用分段处理 long_text transcribe_long_audio(超长录音.m4a, segment_length600) # 每10分钟一段 print(f总识别字数: {len(long_text)})4. 实际效果测试与对比说了这么多功能实际效果到底怎么样我找了几种不同类型的音频做了测试。4.1 测试案例一中文会议录音音频内容10分钟团队会议录音包含多人讨论有一定背景噪音。测试结果识别准确率约95%处理时间约3秒ITN效果将第三季度转为Q3百分之十五转为15%亮点能较好地区分不同说话人虽然没有明确标注说话人对专业术语识别准确标点符号添加合理4.2 测试案例二英文技术播客音频内容15分钟英文技术播客语速较快包含技术术语。测试结果识别准确率约92%处理时间约4秒特殊词汇对Kubernetes、API等技术词识别准确发现的问题极快的语速下个别连读单词识别有误非常生僻的技术缩写可能识别不准确4.3 测试案例三中英文混合内容音频内容5分钟中英文混合的教程类似这个API的endpoint需要这样调用。测试结果中英文切换自然无需手动指定语言专有名词保留英文原词整体可读性很好4.4 性能测试数据我在一台普通配置的笔记本电脑上做了性能测试CPU: Intel i5-1135G7, RAM: 16GB音频长度文件大小处理时间内存占用30秒3MB0.8秒约500MB5分钟30MB4秒约600MB30分钟180MB25秒约800MB性能总结速度很快10秒音频约70毫秒基本是实时的10倍速以上内存占用加载模型后约500MB处理时根据音频长度增加CPU使用单核满载多核利用率不高ONNX推理特点5. 常见问题与解决方案在实际使用中你可能会遇到一些问题。这里整理了几个最常见的。5.1 模型下载失败或速度慢问题第一次运行时模型下载很慢或者失败。解决方案手动下载模型推荐# 创建模型目录 mkdir -p /root/ai-models/danieldong/sensevoice-small-onnx-quant # 手动下载模型文件需要找到实际的下载链接 # 或者从其他已经下载好的机器复制修改代码使用本地路径# 在app.py中修改MODEL_PATH MODEL_PATH ./local_models/sensevoice-small-onnx-quant5.2 识别结果有误或乱码问题识别出来的文字不对或者有乱码。可能原因和解决音频质量太差背景噪音太大或者录音设备太差解决使用降噪软件预处理音频或者换更好的录音设备语速太快或口音太重解决尝试分段处理每段2-3分钟手动指定语言而不是用auto编码问题解决确保Python文件和终端使用UTF-8编码5.3 服务启动失败问题运行python app.py时出错。常见错误和解决# 错误1端口被占用 Address already in use # 解决换一个端口 python app.py --host 0.0.0.0 --port 7861 # 错误2缺少依赖 ModuleNotFoundError: No module named funasr_onnx # 解决重新安装 pip install funasr-onnx --upgrade # 错误3权限不足 Permission denied: /root/ai-models # 解决修改模型存储路径 # 在app.py中修改MODEL_PATH到一个你有权限的目录5.4 如何提高识别准确率如果你对识别准确率有更高要求可以尝试音频预处理import librosa import soundfile as sf def preprocess_audio(input_path, output_path): 音频预处理降噪、标准化、重采样 # 加载音频 y, sr librosa.load(input_path, srNone) # 重采样到16kHz模型最佳采样率 if sr ! 16000: y librosa.resample(y, orig_srsr, target_sr16000) # 简单的音量标准化 y y / max(abs(y.max()), abs(y.min())) # 保存处理后的音频 sf.write(output_path, y, 16000) return output_path # 使用预处理 clean_audio preprocess_audio(原始录音.mp3, 处理后的.wav) result model([clean_audio], languagezh)后处理优化def postprocess_text(text): 对识别结果进行后处理 # 1. 合并重复的空格 import re text re.sub(r\s, , text) # 2. 修复常见的识别错误根据你的需求定制 corrections { 么前: 目前, 固件: 文件, 哪么: 那么, } for wrong, right in corrections.items(): text text.replace(wrong, right) # 3. 确保标点符号正确 text text.replace( ,, ,).replace( ., .) return text.strip() # 使用后处理 raw_result model([audio_file], languagezh)[0] final_result postprocess_text(raw_result)6. 总结SenseVoice-small-onnx语音识别服务是一个功能全面、使用简单的本地化语音转文字解决方案。经过上面的详细介绍和实际测试我们来总结一下它的核心价值。主要优势完全本地运行所有数据都在本地处理不用担心隐私泄露适合处理敏感内容。格式支持全面mp3、wav、m4a、flac等常见格式都能直接处理无需预先转换。多语言识别自动检测50多种语言特别对中文、粤语、英语支持很好。速度快10秒音频仅需70毫秒长音频也能快速处理。使用方式灵活Web界面、API接口、Python直接调用满足不同需求。智能文本格式化自动将口语化的数字、百分比等转为书面格式。适用场景个人使用整理会议记录、学习笔记、采访录音内容创作为视频自动生成字幕将播客转为文字稿开发集成为应用添加语音输入功能构建语音助手多语言项目处理包含多种语言的音频材料使用建议对于普通用户直接使用Web界面最简单。对于开发者API接口最方便集成。对于需要批量处理或高性能的场景用Python直接调用。如果识别效果不理想尝试预处理音频或手动指定语言。最后的小提示第一次使用需要下载模型约230MB之后就可以离线使用了。处理特别长的音频时注意内存使用情况。识别准确率受音频质量影响很大尽量提供清晰的录音。现在你可以根据自己的需求选择合适的使用方式。无论是快速转换一段录音还是为你的应用添加语音识别能力SenseVoice-small-onnx都能提供一个可靠、高效的解决方案。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

✔B【AD623】【单运放】仪表放大器 AD623电压放大器模块在微弱信号检测中的高精度应用

1. AD623仪表放大器的核心优势 AD623作为一款单运放仪表放大器，在微弱信号检测领域有着不可替代的地位。我第一次接触这个芯片是在一个生物电信号采集项目中，当时需要放大微伏级的心电信号，市面上常见的运放要么噪声太大，要么共模…...

2026/4/25 7:46:38 阅读更多 →

RVC实战体验：用AI翻唱周杰伦，我的声音也能当歌手

RVC实战体验：用AI翻唱周杰伦，我的声音也能当歌手 1. 引言：AI翻唱的魅力你是否曾经幻想过自己能像周杰伦一样唱歌？或者想用自己声音翻唱喜欢的歌曲？传统上这需要专业的录音设备和后期处理技术，但现在&…...

2026/4/14 7:18:59 阅读更多 →

WSABuilds终极指南：在Windows 10/11上完美运行Android应用的完整解决方案

WSABuilds终极指南：在Windows 10/11上完美运行Android应用的完整解决方案【免费下载链接】WSABuilds Run Windows Subsystem For Android on your Windows 10 and Windows 11 PC using prebuilt binaries with Google Play Store (MindTheGapps) and/or Magisk or …...

2026/4/17 12:28:11 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/29 5:02:10 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/27 7:22:16 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/28 13:28:42 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/29 6:09:44 阅读更多 →