一个名为Insanely Fast Whisper的工具,将OpenAI Whisper的转录速度提升了19倍。原本需要31分钟处理的2.5小时音频,现在仅需98秒就能完成。
这个工具不是简单的包装器或网页应用,而是一个命令行工具,直接利用本地GPU进行加速。无需API密钥,不依赖云端服务,完全开源。

Insanely Fast Whisper采用Flash Attention 2技术,在保持模型权重与标准Whisper完全相同的前提下,实现了零质量损失的速度飞跃。这意味着用户可以获得与原始Whisper相同的准确度,但处理时间大幅缩短。
性能对比(Nvidia A100 - 80GB):
除了速度优势,该工具还集成了多项实用功能:
pipx install insanely-fast-whisper
insanely-fast-whisper --file-name <音频文件路径或URL>对于临时用户,还支持免安装运行:
pipx run insanely-fast-whisper有意思的是,这个项目最初只是Hugging Face Transformers的一个基准测试demo。社区成员发现它能解决实际问题后,开发者顺势而为,逐步添加了用户真正需要的功能,最终形成了一个完整的命令行工具,并衍生出多个社区项目,包括Web应用和Python包封装。对于需要处理大量音频的用户来说,Insanely Fast Whisper很值得一看。
地址:https://github.com/Vaibhavs10/insanely-fast-whisper