VideoCaptioner（中文名：卡卡字幕助手）基于大语言模型（LLM）的开源智能视频字幕工具

VideoCaptioner（中文名：卡卡字幕助手）是由开发者 WEIFENG2333 开发的一款基于大语言模型（LLM）的开源智能视频字幕工具。它旨在为用户提供从视频下载、语音识别到字幕纠错、翻译及合成的一站式全流程处理方案。

以下是该项目的核心功能和特点：

语音转文字 (ASR)：
- 支持多种识别引擎，包括本地 Whisper 模型（支持不同尺寸，保护隐私且可离线）和多种在线 API（如类似剪映的免费高速接口）。
- 支持 VAD（语音活动检测），能显著减少字幕幻觉（无声段落出现乱码字幕）和重复问题。
- 支持人声分离，可去除背景噪音提高识别准确率。
LLM 智能断句与纠错：
- 利用大模型（如 GPT-4o-mini, DeepSeek, Claude 等）对原始识别的文本进行智能分段和断句，使字幕更符合人类阅读习惯。
- 自动修正识别中的错别字、统一专业术语、优化代码片段和数学公式。
高质量字幕翻译：
- 结合上下文进行智能翻译，相比传统的逐句翻译，表达更地道。
- 支持接入多种翻译服务，包括主流 LLM（OpenAI, Gemini 等）以及 DeepLx, Google, Bing 翻译。
视频处理与合成：
- 视频下载： 支持从 B站、YouTube、抖音、TikTok、小红书等主流平台下载视频并直接处理。
- 一键合成： 支持将生成的字幕自动烧录/合成到视频中，支持自定义字幕样式（字体、颜色、位置）。
- 批量处理： 支持批量视频转录、翻译和合成，大幅提高工作效率。

此内容登录或注册后可见