stt 是一个用于语音识别转文本的工具

shwisdom · 2026-01-10T01:52:12+00:00

stt 是一个用于语音识别转文本的工具，专为离线使用设计。以下是关于这个项目的简介： https://github.com/jianchang512/stt/tree/0.0 用途：这个工具可以将音频或视频内容转换为文本，支持生成 JSON、带时间戳的 SRT 格式以及纯文本格式的输出。支持的...

shwisdom

链接登录后可见

stt 是一个用于语音识别转文本的工具，专为离线使用设计。以下是关于这个项目的简介：

[链接登录后可见]

用途：这个工具可以将音频或视频内容转换为文本，支持生成 JSON、带时间戳的 SRT 格式以及纯文本格式的输出。
支持的模型：它使用了 faster-whisper 模型进行语音到文本的转换。支持的模型包括 tiny、base、small、medium、large 等，有通用和英语专用版本。此外，还提到了一个 whisper-large-v3-turbo 模型，可以通过稍作源代码修改来添加。
安装与设置：
- Windows：用户需要创建一个空目录，克隆该仓库到该目录中，设置 Python 虚拟环境，安装依赖（如果使用 NVIDIA GPU，还需特别安装 CUDA 支持），并将 ffmpeg 和 ffprobe 的可执行文件放置在项目目录中以处理媒体文件。
- 跨平台支持：项目支持 CUDA 加速以实现更快的处理速度，并提供了下载 CUDA 工具包和 cuDNN 的说明。

这个工具旨在提供一个高效、灵活的离线语音识别解决方案，适合需要将音频或视频内容转为文本的各种应用场景。

stt + 模型文件

[链接登录后可见]

提取码：a89f

此内容登录或注册后可见