SenseVoice-Small ONNX部署教程:Ubuntu 22.04 LTS环境下ONNX Runtime安装与验证
SenseVoice-Small ONNX部署教程Ubuntu 22.04 LTS环境下ONNX Runtime安装与验证想快速在本地电脑上部署一个功能强大的语音识别工具吗今天我们就来手把手教你如何在Ubuntu 22.04系统上部署并运行一个基于SenseVoice-Small模型的本地语音识别工具。这个工具最大的特点就是“轻量”和“好用”——它经过了专门的优化对电脑配置要求不高而且操作界面简单直观上传音频文件点一下按钮就能得到带标点的文字稿。无论你是开发者想集成语音功能还是普通用户想体验本地语音转文字的便利这篇教程都能帮你快速搞定。我们不仅会安装必要的运行环境还会一步步验证工具是否能正常工作。话不多说让我们开始吧。1. 环境准备与ONNX Runtime安装在开始部署语音识别工具之前我们需要先搭建好它的运行环境。核心就是安装ONNX Runtime这是一个专门用来高效运行ONNX格式模型的框架。1.1 系统要求与前置检查首先确保你的系统是Ubuntu 22.04 LTS。打开终端输入以下命令可以查看系统信息lsb_release -a接下来更新一下系统的软件包列表确保我们能安装到最新的依赖sudo apt update我们的工具主要依赖Python环境。建议使用Python 3.8到3.10版本。检查一下你的Python版本python3 --version如果系统没有安装pipPython的包管理工具可以通过以下命令安装sudo apt install python3-pip -y1.2 安装ONNX RuntimeONNX Runtime有多个版本为了获得最好的性能和兼容性我们选择安装针对CPU和GPU如果可用优化的版本。在终端中执行以下命令pip3 install onnxruntime-gpu这里有个小提示上述命令会尝试安装支持CUDA的GPU版本。如果你的电脑没有NVIDIA显卡或者你只想在CPU上运行可以安装CPU专用版速度会稍慢但更通用pip3 install onnxruntime安装过程可能需要一两分钟。完成后我们可以写一个简单的Python脚本来验证ONNX Runtime是否安装成功。创建一个名为test_onnx.py的文件nano test_onnx.py在文件中输入以下内容import onnxruntime as ort # 打印ONNX Runtime版本 print(fONNX Runtime 版本: {ort.__version__}) # 获取可用的执行提供者比如CPU CUDA providers ort.get_available_providers() print(f可用的执行提供者: {providers}) # 尝试创建一个简单的会话检查基础功能 try: # 这里我们创建一个空的会话选项进行测试 sess_options ort.SessionOptions() print(ONNX Runtime 基础功能测试通过) except Exception as e: print(f测试失败: {e})保存并退出在nano编辑器中按CtrlX然后按Y最后按Enter。运行这个测试脚本python3 test_onnx.py如果一切正常你会看到类似下面的输出显示了ONNX Runtime的版本和你系统支持的硬件加速后端例如CPU、CUDAONNX Runtime 版本: 1.16.3 可用的执行提供者: [CPUExecutionProvider] ONNX Runtime 基础功能测试通过看到“测试通过”的字样恭喜你ONNX Runtime环境已经准备就绪了2. 获取与部署SenseVoice-Small语音识别工具环境搭好了接下来就是把我们的主角——语音识别工具给部署起来。这个工具已经打包好了我们只需要下载并简单配置就能运行。2.1 下载项目文件你可以通过Git来克隆项目的代码仓库。如果系统没有安装Git先安装它sudo apt install git -y然后克隆项目到本地的一个目录比如我们放在家目录下的一个新建文件夹里cd ~ mkdir voice_tools cd voice_tools git clone https://gitee.com/csdn-ai/sensevoice-small-onnx-streamlit.git cd sensevoice-small-onnx-streamlit这样项目的所有文件就都下载到sensevoice-small-onnx-streamlit这个文件夹里了。2.2 安装Python依赖包这个工具是用Python写的并且用Streamlit构建了网页界面。我们需要安装它所需的所有Python库。项目通常都会有一个requirements.txt文件里面列出了所有依赖。在项目根目录下运行以下命令来一键安装所有依赖pip3 install -r requirements.txt这个安装过程可能会花几分钟因为它需要下载包括Streamlit、FunASR语音识别框架在内的多个库。请耐心等待直到所有包都安装成功。3. 快速启动与功能验证所有准备工作都完成了现在是时候启动工具看看它到底能不能把我们的声音变成文字。3.1 启动语音识别服务在项目根目录下运行以下命令来启动Streamlit应用streamlit run app.py执行命令后终端会输出一些信息并最终告诉你一个本地网络地址通常是http://localhost:8501。它看起来会像这样You can now view your Streamlit app in your browser. Local URL: http://localhost:8501 Network URL: http://192.168.1.x:8501现在打开你电脑上的浏览器比如Firefox或Chrome在地址栏里输入http://localhost:8501并访问。3.2 界面初探与模型加载浏览器打开后你会看到一个简洁的网页界面。标题是“SenseVoice-Small ONNX 语音识别工具”。第一次运行时界面会进行初始化加载主模型工具会从你本地指定的路径或自动下载加载SenseVoice-Small的Int8量化模型。这个过程可能会持续几十秒你会看到界面有加载提示。Int8量化让模型体积和内存占用大大减小即使是普通电脑也能流畅运行。缓存标点模型为了给识别出的文字自动加上逗号、句号工具需要一个小型的标点恢复模型。这个模型在第一次运行时会自动从国内的ModelScope平台下载并缓存到本地。所以首次运行需要保持网络畅通下载完成后以后再用就都是纯本地运行了你的音频数据全程不会上传到任何服务器。当界面不再有加载提示并且出现文件上传按钮时说明所有模型都已就绪。3.3 实战测试上传音频并识别我们来做一个真实的测试验证整个流程。步骤一准备测试音频你可以使用任何一段包含清晰人声的音频文件。支持格式很多比如.wav,.mp3,.m4a等。如果你手头没有可以用手机录一段简短的说话音频例如“今天天气不错我们下午三点开会。”然后传到电脑上。步骤二上传与识别在网页上点击“ 上传音频文件”按钮。在弹出的文件选择窗口中找到并选中你准备好的测试音频文件。文件上传成功后点击下方蓝色的“ 开始识别”按钮。按钮会变成“正在推理...”表示工具正在处理。处理时间取决于音频长短和你的电脑性能一段10秒的音频通常几秒内就能完成。步骤三查看结果识别完成后按钮会变回原样界面下方会弹出一个“✅ 完成”的提示。 最重要的是你会看到一个“识别结果”文本框里面就是转换好的文字。你会发现文字不仅准确还自动加上了合适的标点符号比如“今天天气不错我们下午三点开会。”。如果音频里有数字比如“一百”它也可能被智能地转成了“100”。你可以直接复制文本框里的文字使用。网页关闭后上传的音频临时文件会被自动清理非常方便。4. 核心功能与使用技巧通过上面的测试你已经成功运行了这个工具。我们来深入了解一下它的几个核心功能以及一些让使用体验更好的小技巧。4.1 理解核心功能特性这个工具虽然界面简单但背后集成了几个很实用的技术自动语种识别你不需要告诉它你说的是中文还是英文它能自己判断。这对于中英文混杂的会议录音特别有用。智能文本规整这个功能专业名词叫“逆文本正则化”ITN。它会自动把语音中的口语化表达转换成书面格式。例如把“二零二四年”写成“2024年”把“百分之五十”写成“50%”。标点符号恢复这是提升阅读体验的关键。没有标点的文字稿很难读。工具通过一个专门的标点模型智能地添加句号、逗号、问号等让转录稿立刻变得规整。4.2 使用建议与排错为了让工具运行得更顺畅这里有一些建议音频文件建议格式优先使用WAV或FLAC这类无损格式识别准确率通常更高。MP3等压缩格式也完全支持。时长虽然支持长音频但建议单次上传的音频不要超过10分钟。过长的音频会导致内存占用高处理时间变长。对于很长的录音可以先用音频剪辑软件分割成小段再处理。音质尽量选择人声清晰、背景噪音小的音频。嘈杂环境下的录音会影响识别准确率。常见问题排查启动时报错“找不到模型文件”请检查项目根目录下是否存在models之类的文件夹以及里面是否有对应的.onnx模型文件。确保你是按照教程步骤下载了完整项目。首次运行标点模型下载慢或失败这是因为需要从网络下载模型。请检查你的网络连接特别是能否正常访问国内网络。下载成功后模型会缓存在本地下次就不需要网络了。识别结果空白或乱码首先检查音频文件是否真的包含人声并且音量足够。可以尝试用不同的音频文件测试。如果问题依旧查看浏览器控制台按F12或Streamlit启动终端里是否有红色的错误日志。5. 总结至此我们已经完成了在Ubuntu 22.04系统上部署和验证SenseVoice-Small ONNX语音识别工具的全过程。让我们简单回顾一下我们首先安装了ONNX Runtime这是运行优化后AI模型的引擎并通过一个简单的脚本验证了安装成功。然后我们下载并部署了语音识别工具项目安装了所有必要的Python依赖。最后我们成功启动了工具并通过上传真实音频文件完整体验了从语音到带标点文字的转换流程。这个工具的优势非常明显本地运行保护隐私Int8量化让它在普通电脑上也能快速响应集成标点恢复功能让转录结果拿来就能用。无论是用于会议记录、访谈整理还是作为学习AI应用部署的案例它都是一个非常不错的选择。如果你在操作过程中遇到任何问题或者想探索更多不同功能的AI应用可以回顾一下每个步骤的细节。现在你可以开始用这个工具高效地处理你的音频文件了。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。