阿里通义开源 Qwen3-ASR-Toolkit,音视频转录 Python 命令行工具
阿里通义Qwen团队推出开源Python命令行工具Qwen3-ASR-Toolkit,该工具能一键突破Qwen3-ASR-Flash API的3分钟时长限制,实现小时级音视频的快速转录。
Qwen3-ASR-Flash是通义千问系列最新的语音识别模型,它基于Qwen3基座模型,经海量多模态数据以及千万⼩时规模的 ASR(自动语音识别)数据训练构建而成。
Qwen3-ASR-Toolkit采用VAD智能静音切分技术,确保句子完整性;能自动将任意采样率的音频重采样为16 kHz单声道;借助多线程并行上传分片,显著缩短总耗时。
此外,它基于FFmpeg,支持mp4、mov、mkv、mp3、wav、m4a等几乎所有媒体格式。
开源地址:https://github.com/QwenLM/Qwen3-ASR-Toolkit
