shwisdom 链接登录后可见 stt 是一个用于语音识别转文本的工具,专为离线使用设计。以下是关于这个项目的简介: [链接登录后可见] 用途:这个工具可以将音频或视频内容转换为文本,支持生成 JSON、带时间戳的 SRT 格式以及纯文本格式的输出。 支持的模型:它使用了 faster-whisper 模型进行语音到文本的转换。支持的模型包括 tiny、base、small、medium、large 等,有通用和英语专用版本。此外,还提到了一个 whisper-large-v3-turbo 模型,可以通过稍作源代码修改来添加。 安装与设置: Windows:用户需要创建一个空目录,克隆该仓库到该目录中,设置 Python 虚拟环境,安装依赖(如果使用 NVIDIA GPU,还需特别安装 CUDA 支持),并将 ffmpeg 和 ffprobe 的可执行文件放置在项目目录中以处理媒体文件。 跨平台支持:项目支持 CUDA 加速以实现更快的处理速度,并提供了下载 CUDA 工具包和 cuDNN 的说明。 这个工具旨在提供一个高效、灵活的离线语音识别解决方案,适合需要将音频或视频内容转为文本的各种应用场景。 stt + 模型文件 [链接登录后可见] [链接登录后可见] 提取码:a89f此内容 登录 或 注册 后可见