速度提升 10 倍，成本削减 75%：Mercury 2 成为开发者的新宠

code

Mercury 2 是由 Inception Labs 开发的突破性大语言模型。与市面上绝大多数基于“自回归（Autoregressive）”架构的模型不同，Mercury 2 采用了全新的 扩散（Diffusion）技术，彻底打破了逐字生成的速度瓶颈，被视为 2026 年 AI 领域的“速度与效率之王”。

—

简介

Mercury 2 是全球首个商业化规模的、利用扩散技术实现文本生成的 LLM。它的核心使命是解决 AI 推理中的“昂贵”和“缓慢”问题，为开发者提供一个极速、高逻辑性且支持结构化输出的生产力引擎。

—

产品矩阵与模型分工

Mercury 系列采取精简而高效的布局：

Mercury 2 (Standard): 全能型主力模型，平衡了推理速度与逻辑深度。
Mercury Coder: 专门针对代码生成与调试优化的变体，在 Blackwell GPU 上可实现极速响应。
Mercury Lite: 极小参数版本，专注于超低延迟的边缘计算或简单的意图识别任务。

—

核心技术突破

Mercury 2 的核心竞争力源于底层的架构革新：

非自回归扩散架构 (Non-Autoregressive Diffusion): 传统模型像写字一样逐字生成，而 Mercury 2 类似于“素描到完稿”，通过从噪声中去噪，一次性生成更大块的内容，性能提升 10 倍以上。
粗到细生成策略 (Coarse-to-Fine): 有效减少了幻觉问题，通过多次迭代修正逻辑，确保长文本的一致性。
128K 上下文窗口: 虽然略逊于 Gemini 系列的百万级窗口，但其 128K 的有效窗口在处理专业文档、长代码块时具有极高的信息检索精度。

—

用户体验与应用场景

得益于极高的吞吐量，Mercury 2 在以下场景表现卓越：

实时交互式编程: 在开发者键入代码时，实现几乎无感知的实时整段补全。
大规模结构化数据提取: 能够瞬间将数万字的非结构化文本转为 JSON 格式。
高频 API 调用: 极低的 token 成本（$0.25/1M input）使其成为企业级自动化流水线的首选。

—

多媒体内容创作

Mercury 2 目前专注于文本、代码和结构化数据。不同于 Gemini 或 GPT 系列的全面多模态，Mercury 2 暂不支持直接的图像生成或视觉理解。它的策略是作为“大脑”，通过极致的文本控制力来驱动其他多媒体插件。

—

行业地位与开发者生态

Mercury 2 的出现直接对 Google 的 Gemini 3 Flash 和 Anthropic 的 Haiku 构成了强力竞争。

成本杀手: 价格仅为 Gemini 3 Flash 的一半，比 Claude 同类模型便宜约 4 倍。
推理性能: 在 Artificial Analysis 的智能指数中，Mercury 2 的得分显著高于行业平均水平，特别是在 SciCode（科学代码）和 GPQA（研究生级科学问答）测试中表现惊人。

—

注意： Mercury 2 专注于逻辑、代码与速度，若您需要处理视频理解或超长文档（超过 100 万 token），可能仍需配合 Gemini 系列使用。

此内容登录或注册后可见