Whisper —— OpenAI 开源的语音识别系统
Whisper 是 OpenAI 开源的自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。 设置 我们使用 Python 3.9.9 和 PyTorch 1.10.1 来训练和测试我们的模型,但代码库预计将与 Python 3.7 或更高版本以及最新的 PyTorch 版本兼容。 代码库还依赖于一些 Python 包,以下命令将从该存储库中提取并安装最新提交及其 Python 依赖项 pip install git+https://github.com/openai/whisper.git 它还需要在你的系统上安装命令行工具 ffmpeg,大多数包管理器都可以使用: # on Ubuntu or Debian sudo apt up...

