Text-to-Speech-TTS-ONNX

Utilizes ONNX Runtime for TTS model.

Features

Supported Models:
- KaniTTS
- F5-TTS
- IndexTTS
- BigVGAN (It is part of the TTS module.)
End-to-End Processing:
- The solution includes internal STFT/ISTFT processing.
- Input: reference audio + text
- Output: generated speech
Optimize:
- The key components enable 100% deployment of GPU operators.
Resources:
- Explore More Projects

性能 Performance

OS	Device	Backend	Model	Time Cost in Seconds (reference audio: 6s / generates approximately 15 words of speech)	RTF
Ubuntu-24.04	Laptop	CPU i7-1165G7	F5-TTS F32	180 (NFE=32)	60
Ubuntu-24.04	Laptop	GPU MX150	F5-TTS F32	62 (NFE=32)	21
Ubuntu-24.04	Laptop	CPU i7-1165G7	IndexTTS F32	18	6
Ubuntu-24.04	Laptop	GPU MX150	BigVGAN V2 24khz_100band_256x F16	4.6 input mel = (1, 100, 512)	1.53
Ubuntu-24.04	Laptop	CPU i7-1165G7	KaniTTS Q8F32	4.2	1.4
Ubuntu-24.04	Laptop	CPU i7-1165G7	KaniTTS Q4F32	2.6	0.87

To-Do List

Beam Search
VoxCPM

Text-to-Speech-TTS-ONNX

通过 ONNX Runtime 实现运行 TTS 模型。

功能

支持的模型：
- KaniTTS
- F5-TTS
- IndexTTS
- BigVGAN (它是TTS模块的一部分)
端到端处理：
- 解决方案内置 STFT/ISTFT 处理。
- 输入：参考音频 + 文本
- 输出：生成的语音
优化:
- 模型关键组件实现了 100% GPU 算子部署。
资源：
- 探索更多项目

Name		Name	Last commit message	Last commit date
Latest commit History 182 Commits
BigVGAN		BigVGAN
F5_TTS		F5_TTS
IndexTTS		IndexTTS
Kani_TTS		Kani_TTS
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Text-to-Speech-TTS-ONNX

Features

性能 Performance

To-Do List

Text-to-Speech-TTS-ONNX

功能

About

Uh oh!

Releases

Packages

Languages

License

DakeQQ/Text-to-Speech-TTS-ONNX

Folders and files

Latest commit

History

Repository files navigation

Text-to-Speech-TTS-ONNX

Features

性能 Performance

To-Do List

Text-to-Speech-TTS-ONNX

功能

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages