Voicebox：ElevenLabs 的最强开源平替，本地运行的顶级 AI 语音克隆神器

粘人豆包

[链接登录后可见]

jamiepine/voicebox 是一个在 GitHub 上非常热门的开源项目，定位为开源、本地优先的语音克隆与合成工作站。

它被视为 ElevenLabs 的免费开源替代品，旨在让用户在自己的设备上完全掌控声音合成过程。以下是该项目的核心介绍：

1. 核心功能

即时语音克隆 (Voice Cloning)： 仅需几秒钟的音频样本，即可快速克隆出特定的人声。
高保真语音合成 (TTS)： 生成具有自然语调、情感和节奏的语音。
本地运行： 所有的模型推理和数据处理都在本地完成，无需上传到云端，保护隐私且无订阅费。
故事编辑器 (Stories Editor)： 提供类似 DAW（数字音频工作站）的多轨编辑界面。用户可以在时间轴上安排不同的声轨，创作对话、播客或叙事作品。
跨平台支持： 提供 macOS、Windows 和 Linux 的原生桌面客户端（基于 Tauri 框架）。

2. 技术栈

核心模型： 采用了阿里巴巴开发的 Qwen3-TTS 系列模型（包括 1.7B 和 0.6B 版本），这是目前业界领先的开源语音合成模型。
音频转录： 集成了 OpenAI 的 Whisper 模型，用于自动语音识别（ASR）和转录。
性能优化：
- 在 Mac 上使用 MLX 后端，充分利用 Apple Silicon 的神经网络引擎（Neural Engine）实现极速生成。
- 在 Windows/Linux 上支持 NVIDIA GPU (CUDA) 加速。
前端/桌面： 使用 TypeScript + React 构建 UI，通过 Tauri v2 实现跨平台桌面应用。

3. 项目特色

本地优先： 适合对隐私敏感或需要离线工作的创作者。
开源免费： 相比于付费的 ElevenLabs，Voicebox 提供了一个功能相近但完全免费的方案。
现代化的 UI： 界面设计非常精美，操作逻辑符合专业音视频剪辑师的习惯。

4. 获取与安装

你可以通过其 GitHub 页面下载预编译的安装包，或者通过源码自行构建。

GitHub 地址： [链接登录后可见]
官网： [链接登录后可见]

提示： 首次使用时，程序会自动从 HuggingFace 下载所需的模型文件（通常在 2GB 到 4GB 左右），因此需要稳定的网络连接。

此内容登录或注册后可见