
VideoCaptioner(中文名:卡卡字幕助手)是由开发者 WEIFENG2333 开发的一款基于大语言模型(LLM)的开源智能视频字幕工具。它旨在为用户提供从视频下载、语音识别到字幕纠错、翻译及合成的一站式全流程处理方案。
以下是该项目的核心功能和特点:
1. 核心功能
语音转文字 (ASR):
- 支持多种识别引擎,包括本地 Whisper 模型(支持不同尺寸,保护隐私且可离线)和多种在线 API(如类似剪映的免费高速接口)。
- 支持 VAD(语音活动检测),能显著减少字幕幻觉(无声段落出现乱码字幕)和重复问题。
- 支持人声分离,可去除背景噪音提高识别准确率。
LLM 智能断句与纠错:
利用大模型(如 GPT-4o-mini, DeepSeek, Claude 等)对原始识别的文本进行智能分段和断句,使字幕更符合人类阅读习惯。
自动修正识别中的错别字、统一专业术语、优化代码片段和数学公式。
高质量字幕翻译:
结合上下文进行智能翻译,相比传统的逐句翻译,表达更地道。
支持接入多种翻译服务,包括主流 LLM(OpenAI, Gemini 等)以及 DeepLx, Google, Bing 翻译。
视频处理与合成:
视频下载: 支持从 B站、YouTube、抖音、TikTok、小红书等主流平台下载视频并直接处理。
一键合成: 支持将生成的字幕自动烧录/合成到视频中,支持自定义字幕样式(字体、颜色、位置)。
批量处理: 支持批量视频转录、翻译和合成,大幅提高工作效率。
2. 技术优势
模型兼容性广: 兼容标准 OpenAI API 格式,支持接入 SiliconCloud、DeepSeek、Ollama 等本地或云端模型。
无需高端 GPU: 默认配置下,用户甚至可以在没有高端显卡的情况下使用在线识别和内置模型完成任务。
开箱即用: 提供 Windows 版可执行程序(.exe),不熟悉 Python 环境的用户也可以直接下载安装使用。
UI 直观: 提供了专门的字幕编辑预览界面,方便用户在合成前进行手动微调。
3. 使用场景
自媒体博主: 快速为 Vlog 或教程视频制作高准确度的中英双语字幕。
翻译组/汉化组: 利用 LLM 的上下文理解能力进行初翻和校对。
学习者: 自动下载海外平台(如 YouTube)视频并生成翻译字幕。
4. 获取方式
[链接登录后可见]