7分钟掌握FunASR与ModelScope集成:语音识别模型高效管理指南
7分钟掌握FunASR与ModelScope集成语音识别模型高效管理指南FunASR是一款功能强大的端到端语音识别工具包而ModelScope则是一个开源模型社区两者的集成可以帮助开发者轻松获取和管理语音识别模型。本文将详细介绍如何将FunASR与ModelScope集成实现语音识别模型的高效管理和使用。FunASR与ModelScope集成的优势FunASR作为A Fundamental End-to-End Speech Recognition Toolkit提供了丰富的语音识别功能和模型。ModelScope则为开发者提供了一个集中管理和分享模型的平台。将两者集成开发者可以轻松获取海量预训练模型FunASR在ModelScope上发布了大量开源数据集或海量工业数据训练的模型如代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点。简化模型管理流程通过ModelScope开发者可以方便地搜索、下载和更新模型无需手动管理模型文件。快速构建语音识别服务结合FunASR的便捷部署特性和ModelScope的模型资源开发者可以快速构建自己的语音识别服务。环境准备与安装安装Conda可选Conda可以帮助我们创建独立的Python环境避免包冲突。以下是在不同操作系统上安装Conda的命令Linuxwget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh sh Miniconda3-latest-Linux-x86_64.sh source ~/.bashrc conda create -n funasr python3.8 conda activate funasrMacwget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh # For M1 chip # wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh sh Miniconda3-latest-MacOSX* source ~/.zashrc conda create -n funasr python3.8 conda activate funasr安装Pytorch版本 1.11.0pip3 install torch torchaudio如果您的环境中存在CUDAs则应安装与CUDA匹配版本的pytorch匹配列表可在Pytorch文档中找到。安装FunASR从pip安装pip3 install -U funasr # 对于中国大陆用户可以使用以下命令进行安装 # pip3 install -U funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple或者从源代码安装git clone https://gitcode.com/gh_mirrors/fu/FunASR cd FunASR pip3 install -e ./ # 对于中国大陆用户可以使用以下命令进行安装 # pip3 install -e ./ -i https://mirror.sjtu.edu.cn/pypi/web/simple安装ModelScope如果您想要使用ModelScope中的预训练模型则应安装modelscopepip3 install -U modelscope # 对于中国大陆用户可以使用以下命令进行安装 # pip3 install -U modelscope -i https://mirror.sjtu.edu.cn/pypi/web/simple快速上手使用ModelScope模型进行语音识别基本使用方法使用ModelScope的pipeline接口可以快速调用FunASR模型进行语音识别。以下是一个简单的示例from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks inference_pipeline pipeline( taskTasks.auto_speech_recognition, modeldamo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch, ) rec_result inference_pipeline( audio_inhttps://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav ) print(asr inference result: {0}.format(rec_result))这段代码会加载ModelScope上的damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch模型并对指定的音频文件进行语音识别。模型选择ModelScope上提供了多种FunASR模型适用于不同的场景和需求。例如通用场景damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch在线场景damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online小模型damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch您可以在ModelScope模型仓库中查看更多模型。高级功能自定义参数与批量处理自定义参数在创建pipeline时可以通过param_dict参数传入自定义参数例如设置热词param_dict dict() param_dict[hotword] https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/hotword.txt inference_pipeline pipeline( taskTasks.auto_speech_recognition, modeldamo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404, param_dictparam_dict, )批量处理对于需要处理大量音频文件的场景可以使用批量处理功能提高效率。具体实现可以参考tests/test_asr_inference_pipeline.py中的示例。模型部署与服务构建FunASR提供了多种部署方式可以将ModelScope上的模型快速部署为服务。详细的服务部署文档可以参考runtime/readme_cn.md。快速部署如果不需要修改服务部署SDK且部署的模型来自ModelScope或用户微调可以使用快速部署方式。具体教程请参考runtime/docs/SDK_tutorial_online.md。高级部署如果需要修改服务部署SDK可以使用高级部署方式。详细文档请参考runtime/docs/SDK_advanced_guide_online.md。常见问题与解决方案安装问题在MAC M1芯片上安装时可能会出现以下错误_cffi_backend.cpython-38-darwin.so (mach-o file, but is an incompatible architecture (have (x86_64), need (arm64e)))解决方案pip uninstall cffi pycparser ARCHFLAGS-arch arm64 pip install cffi pycparser --compile --no-cache-dir模型加载问题如果出现模型加载失败的情况可以检查以下几点确保ModelScope已正确安装检查模型名称是否正确检查网络连接确保模型可以正常下载性能优化对于大规模语音识别任务可以考虑使用GPU加速。FunASR支持CUDA加速只需确保安装了与CUDA匹配的Pytorch版本。对于实时性要求较高的场景可以选择在线模型如damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online。总结通过本文的介绍您应该已经掌握了FunASR与ModelScope集成的基本方法和高级技巧。借助ModelScope的丰富模型资源和FunASR的强大功能您可以轻松构建高效、准确的语音识别应用。无论是科研实验还是商业项目FunASR与ModelScope的集成都能为您提供有力的支持。如果您在使用过程中遇到任何问题可以参考官方文档或在项目的GitHub仓库提交issue获取更多帮助。祝您在语音识别的探索之路上取得成功 创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考