GitHub - lovemefan/telespeech-asr-python

Telespeech-asr-python

TeleSpeech-ASR（星辰超多方言语音识别大模型）是由中国电信人工智能研究院（TeleAI）发布业内首个支持30种方言自由混说的语音识别大模型。

首先感谢电信团队的开源奉献，该模型是目前来看修改版的data2vec，整个模型类似于wav2vec_ctc，期待后续技术报告及论文的发布。

由于原项目依赖fairseq和kaldi预处理，光跑起来就非常麻烦，本项目提供一个不依赖与fairseq和kaldi的推理环境方便模型测试。

模型使用官方在KeSpeech数据集8种方言微调的模型

现sherpa-onnx已支持telespeech的c++ runtime，见详情。

如何使用

1. 安装依赖

torch版runtime需要安装kaldifest和requirements.txt里面的依赖 kaldifest 安装参看官方文档

pip install -r requirements.txt

onnxruntime 只需要安装requirements-onnxruntime.txt里面的依赖即可

pip install -r requirements-onnxruntime.txt

2. 官方fairseq模型转换（可选）

由于本人修改该模型中的键值key，删掉了checkpoint的多余信息，因此本项目不兼容官方原版checkpoint。可以使用下面的脚本转换，或跳转到第三步下载模型。

python telespeechasr/torch/utils/convert_fairseq_checkpoint.py --input /path/finetune_large_kespeech.pt --output /path/torch_checkpoint.pt

3. 下载模型

从huggingface

wget https://huggingface.co/lovemefan/telespeech/resolve/main/finetune_large_kespeech.pt?download=true -O finetune_large_kespeech.pt

# 或者使用镜像
wget https://hf-mirror.com/lovemefan/telespeech/resolve/main/finetune_large_kespeech.pt?download=true -O finetune_large_kespeech.pt

4. 模型导出

如果修改了词表，需要手动修改torchscript_export.py 或onnx_export.py中的词表大小

Data2VecMultiModel(vocab_size=7535)

torchscript 导出

PYTHONPATH=$PWD python telespeechasr/torchscript/torchscript_export.py --model_path /path/torch_checkpoint.pt \
--output_dir /path/output_dir

onnx 导出


```bash
PYTHONPATH=$PWD python telespeechasr/onnx/onnx_export.py --model_path /path/torch_checkpoint.pt
--output_dir /path/output_dir

5. 模型推理（目前还不支持batch解码）

以下模型都可在huggingface 下载

torch推理，支持cpu, cuda, mps

PYTHONPATH=$PWD python telespeechasr/torch/infer.py --model_path /path/finetune_large_kespeech.pt --audio_path /path/audio.wav

torchscript 推理，支持cpu, cuda, mps

PYTHONPATH=$PWD python telespeechasr/torchscript/torchscript_infer.py --model_path /path/model_export_torchscript.pt
--audio_path /path/audio.wav
--device cpu

onnx 推理, 支持gpu，cpu推理

PYTHONPATH=$PWD python telespeechasr/onnx/onnx_infer.py --model_path /path/model_export.onnx
--audio_path /path/audio.wav

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
telespeechasr		telespeechasr
README.md		README.md
TeleSpeech模型社区许可协议.pdf		TeleSpeech模型社区许可协议.pdf
requirements-onnxruntime.txt		requirements-onnxruntime.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Telespeech-asr-python

如何使用

1. 安装依赖

2. 官方fairseq模型转换（可选）

3. 下载模型

4. 模型导出

5. 模型推理（目前还不支持batch解码）

About

Releases

Packages

Contributors 2

Languages

lovemefan/telespeech-asr-python

Folders and files

Latest commit

History

Repository files navigation

Telespeech-asr-python

如何使用

1. 安装依赖

2. 官方fairseq模型转换（可选）

3. 下载模型

4. 模型导出

5. 模型推理（目前还不支持batch解码）

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages