从 Lightning Indexer 到 Lookahead Sparse Attention，DeepSeek 用三代模型重写了 Transformer 注意力机制的底层规则。

摘要

Transformer 的自注意力机制是当代大语言模型的核心引擎，也是其最大的效率瓶颈——标准因果注意力的计算复杂度随序列长度平方增长，KV Cache 的内存占用随上下文线性膨胀。到百万 token 级别，未经优化的注意力模块足以让任何 GPU 显存瞬间耗尽。2024 年末至 2026 年 6 月，DeepSeek 在不到两年时间里完成了注意力机制的三代跃迁：从 V3.2 的 DeepSeek Sparse Attention（DSA） 与 Lightning Indexer，到 V4 的 Compressed Sparse Attention（CSA） 与 Heavily Compressed Attention（HCA） 混合架构，再到 2026 年 6 月最新发布的 FlashMemory-DeepSeek-V4 中提出的 Lookahead Sparse Attention（LSA） 与 Neural Memory Indexer。这条技术路线正在重新定义「长上下文」的可能性边界。

一、问题的根源：注意力为何成为瓶颈

在标准 Transformer 解码器中，每一个新 token 的生成都需要与所有历史 token 进行注意力计算。对于一个长度为 N 的序列，单层注意力的时间复杂度为 O(N²)，空间复杂度（KV Cache）为 O(N)。这意味着上下文翻倍，计算量翻四倍，KV Cache 翻倍。

更关键的是，KV Cache 并非一个可以简单压缩的辅助结构——它本质上是模型对已处理上下文的「工作记忆」。在自回归解码过程中，每生成一个 token 都需要重新读取全部 KV Cache。当模型厂商将上下文窗口从 128K 推向 1M token 时，KV Cache 成为限制并发吞吐量和 token 定价的核心瓶颈。正如 LMCache 团队所总结的：「降低 token 定价的关键，就是让 KV Cache 变小。」

业界对此的早期应对包括滑动窗口注意力（Sliding-Window Attention），即每个 token 只关注固定范围内的局部上下文。但这种方式将注意力模式硬编码为「局部性优先」，模型无法主动选择需要回顾的远距离信息。

二、V3.2 的破局：DeepSeek Sparse Attention 与 Lightning Indexer

2025 年 9 月，DeepSeek 在 V3.2 中引入了 DSA，从根本上改变了稀疏注意力的设计范式。不同于滑动窗口注意力将关注范围限制在固定局部窗口，DSA 让模型学习哪些历史 token 值得被关注。

DSA 由两个核心组件构成：

Lightning Indexer（闪电索引器）：一个轻量级的评分模块，对每个新 query token，利用 MLA（Multi-head Latent Attention）的压缩 token 表示，计算与所有历史 token 的相关性分数。它维护一个较小的 key cache（每个 token 仅 128 维，而 MLA 标准为 512 维），因此索引开销远低于完整注意力。

Token Selector（Token 选择器）：基于 Lightning Indexer 输出的分数，保留 top-k 个高分历史位置（DeepSeek 的实现中通常取 k=2048），将这些位置构成稀疏注意力掩码。被选中的 token 可以来自上下文的任意位置，不要求连续。

这一设计的核心突破在于：稀疏模式不再由人工预设，而是由模型根据输入内容动态学习。当模型处理一段长文本时，Lightning Indexer 能自动识别出与当前 query 最相关的远距离 token，无论它们出现在几千还是几万 token 之前。

从复杂度角度看，DSA 将注意力计算从 O(N²) 降低至 O(N·k)，其中 k 为选中的 token 数量。在 V3.2 的实际部署中，DSA 与 MLA 协同工作——MLA 压缩 KV Cache 的存储表示，DSA 限制需要实际计算的注意力对数量。两者分别从「缓存表示」和「注意力模式」两个维度优化效率。

DSA 的影响力迅速扩展到 DeepSeek 之外。智谱在 GLM-5 中同时引入了 MLA 和 DSA，替换了此前 GLM-4.5 中更传统的注意力架构。Sebastian Raschka 在其 LLM 架构对比中将其列为当前效率导向架构栈的关键组件。

三、V4 的架构跃迁：CSA 与 HCA 的混合注意力

2026 年 4 月，DeepSeek 发布了 V4 预览版，将注意力机制的优化推向新高度。V4 的核心创新是一套混合注意力架构，将 Compressed Sparse Attention（CSA）和 Heavily Compressed Attention（HCA）交错部署在 Transformer 各层之间。

CSA：压缩 + 稀疏

CSA 在 DSA 的基础上增加了一个关键步骤：token 级压缩。它将每 m 个连续 token 的 KV Cache 通过一个可学习的压缩器合并为一条条目，然后在这个压缩后的表示上应用 DSA 的稀疏选择。这意味着 Lightning Indexer 不再需要在全部原始 token 上评分，而是在压缩后的「块表示」上进行索引，进一步降低了索引开销。

CSA 同时配备了一个滑动窗口注意力分支，覆盖最近的 n_win 个 token，确保模型对局部依赖关系保持高精度建模。

HCA：极致压缩 + 稠密注意力

HCA 采取的是另一种策略：将每 m' 个 token 的 KV Cache 高度压缩为一条（m' ≫ m，即压缩比远高于 CSA），然后对压缩后的表示执行完整的稠密注意力。由于压缩比足够高，即使使用全注意力，计算量也远低于原始序列。

HCA 的设计哲学可以理解为一种「以精度换广度」的权衡：它牺牲了对单个 token 细粒度信息的精确建模能力，换取让所有 token 参与注意力计算的能力。在 V4 中，这意味着模型拥有比 V3.2 强得多的「长期记忆」——它能够记住全部历史对话，让所有历史信息共同决定后续文本生成，而不是仅依赖稀疏选出的 1024 个 token。

效率数据

在百万 token 上下文的设定下，V4-Pro 的单 token 推理 FLOPs（等效 FP8）仅为 V3.2 的 27%，KV Cache 大小降至 10%。V4-Flash 则更为激进：FLOPs 降至 10%，KV Cache 降至 7%。整体 KV Cache 缩减约 10 倍，直接带来 2-3 倍的 token 生成吞吐量提升和相应的价格下降。

四、最新进展：FlashMemory 的 Lookahead Sparse Attention

2026 年 6 月 8 日，DeepSeek 团队在 arXiv 上提交了 FlashMemory-DeepSeek-V4 技术报告（arXiv:2606.09079），提出了 Lookahead Sparse Attention（LSA）——一种全新的推理范式，将稀疏注意力从「被动选择」升级为「主动预测」。

核心思想：从「回顾」到「前瞻」

传统注意力机制（包括 DSA 和 CSA）的核心逻辑是「回顾」：当前 token 计算与历史 token 的相关性，然后选择性地关注。LSA 则引入了「前瞻」逻辑：主动预测未来 token 可能需要哪些上下文信息，并仅保留这些查询关键（query-critical）的 KV 块在 GPU 显存中。

这一范式转变由一个新的组件驱动——Neural Memory Indexer（神经记忆索引器）。与 DSA 的 Lightning Indexer 不同，Neural Memory Indexer 不是简单地对历史 token 评分，而是学习预测未来的上下文需求。它被构建为一个标准的双编码器架构，可以独立于主模型进行训练。

解耦训练：无需加载主模型

LSA 最引人注目的工程创新在于其骨干网络无关的解耦训练策略（backbone-free decoupled training）。Neural Memory Indexer 使用标准检索训练框架独立训练，训练过程中完全不需要将庞大的主模型加载到 GPU 显存中。这意味着：

索引器可以针对任意已部署的 DeepSeek-V4 模型进行独立优化
训练成本极低，不需要万卡集群
索引器可以作为「即插即用」模块集成到现有推理管线中

实验结果

在 LongBench-v2、LongMemEval 和 RULER 等长上下文评测套件中，FM-DS-V4 将平均物理 KV Cache 占用压缩至全上下文基线的 13.5%，同时下游任务准确率不仅没有下降，反而实现平均 +0.6% 的绝对提升。在极端的 500K token 场景下，FlashMemory 将物理 KV Cache 开销压制至 10% 以下，且不破坏主模型的核心推理能力。

这一反直觉的结果——「更少的 KV Cache 反而带来更好的准确率」——揭示了 LSA 不仅是内存优化工具，更充当了有效的注意力去噪器：在需要长期全局记忆的任务中，过滤掉不相关的 KV 块实际上帮助模型集中注意力于真正关键的信息。

五、算法演进的内在逻辑

回顾 DeepSeek 三代注意力机制的演进，可以梳理出一条清晰的算法逻辑：

阶段	模型	核心机制	复杂度	KV Cache（vs 全上下文）
1	V3.2	DSA（Lightning Indexer + Token Selector）	O(N·k)	100%（MLA 压缩表示）
2	V4	CSA + HCA 混合	O(N·k/m)	~10%
3	FM-V4	LSA（Neural Memory Indexer）	预测式	~13.5%（+精度提升）

每一步都解决前一代的遗留问题：DSA 解决了「关注哪些 token」的问题；CSA 在此基础上解决了「如何压缩后再关注」的问题；LSA 则从根本上改变了问题范式——从「回顾式选择」转向「前瞻式预测」。

值得注意的是，这条技术路线与 Google 在 Titans/MIRAS/Nested Learning 系列中探索的「测试时学习」方向形成了有趣的呼应。两者都试图让模型在推理阶段拥有更智能的记忆管理能力，但路径不同：Google 侧重让模型在推理时动态更新权重，DeepSeek 则侧重让模型在推理时动态选择记忆内容。这两条路线可能在未来走向融合。

六、行业影响与展望

DSA 及其后继者正在改变 LLM 部署的经济学。DeepSeek V4-Pro 的 API 定价为每百万输出 token 0.87 美元，而同等能力的闭源模型通常在 15-30 美元区间。这一差距的根源不仅是开源策略，更在于注意力机制的效率革命——KV Cache 缩小 10 倍意味着相同的 GPU 可以服务 10 倍的并发请求。

从更广的视角看，2026 年的注意力机制创新已进入密集迭代期。GLM-5 引入 DSA、Gemma 4 探索 KV 共享、Laguna XS.2 提出逐层注意力预算分配、ZAYA1-8B 尝试压缩卷积注意力——这些探索共同指向一个趋势：Transformer 的注意力机制正在从一个「通用组件」演变为一个高度可定制、任务自适应的架构空间。未来模型的注意力模式可能不再是统一的，而是根据层深度、任务类型和上下文长度动态切换。

对于算法工程师和系统设计者而言，理解稀疏注意力的演进逻辑已不仅是学术兴趣，而是直接影响生产系统成本与性能的工程决策。DeepSeek 用三代模型证明：在算力 Scaling Law 之外，算法创新同样能带来数量级的效率提升。

来源：

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention (arXiv:2606.09079, 2026-06-08)
DeepSeek Sparse Attention — Sebastian Raschka, LLM Architecture Gallery
DeepSeek AI Releases DeepSeek-V4: CSA and HCA Enable One-Million-Token Contexts — MarkTechPost (2026-04-24)
DeepSeek V4 explained, and why it matters to your wallet — LMCache Blog (2026-05-04)
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556)

摘要