万亿参数,曾经是闭源模型的专属标签。2026 年 6 月,inclusionAI(蚂蚁集团旗下开源 AI 研究团队)用一份技术报告和两个模型权重,彻底改写了这个叙事——Ling-2.6-1T 和 Ring-2.6-1T,一对万亿参数 MoE 旗舰模型,分别负责「快思考」和「深推理」,全部以 MIT 许可证开源。
这不是一次简单的权重发布。arXiv 技术报告(2606.15079)揭示了背后的完整技术栈:混合线性注意力架构、异步强化学习训练框架、演化式思维链策略——每一个环节都在回答同一个问题:万亿参数模型,如何做到既强又省、既快又深?
双模型分工:一个快,一个深
inclusionAI 的产品线命名一度让社区困惑,但 Ling-2.6 和 Ring-2.6 的定位其实非常清晰:
- Ling 系列:即时响应(instruct / non-thinking)模型,面向日常编码、工具调用、Agent 工作流,追求「每一 token 的高智力产出」。
- Ring 系列:深度推理(reasoning / thinking)模型,在相同 MoE 骨架之上叠加强化学习训练,产出长链思维,面向数学竞赛、科学推理、复杂系统分析。
两者共享同一 MoE 架构——约 1 万亿总参数,每次前向传播激活约 630 亿参数。Ling 是「快速思考」的引擎,Ring 是「深度推理」的大脑。这种「一底双模」的设计,让 inclusionAI 在万亿参数规模上同时覆盖了效率和能力两个维度。
Ling-2.6-1T:用「快思考」压低推理成本
Ling-2.6-1T 的核心命题是:在不牺牲智力的前提下,把推理成本打下来。
根据 HuggingFace 模型卡和 OpenRouter 数据,Ling-2.6-1T 在 Artificial Analysis 的 Intelligence Index 上达到 34,仅消耗约 1600 万 输出 tokens——较前代 Ling-1T 实现了显著的代际跃升。OpenRouter 页面的描述更为直白:其「快速思考」策略将成本压缩至同类模型的约四分之一,同时保持顶级性能。
成本优势来自两个关键设计。其一是混合注意力架构:将 MLA(Multi-head Latent Attention)与 Linear Attention 结合,在长上下文场景下大幅降低延迟和显存占用。其二是训练阶段的上下文过程冗余抑制(Contextual Process Redundancy Suppression)奖励策略:在后训练中鼓励模型跳过冗长的思维链,直接给出答案,在保持智力水平的同时压缩输出 token 开销。
在基准测试上,Ling-2.6-1T 的表现同样扎实。它在一系列执行密集型评测中取得了开源 SOTA:AIME26(高级数学推理)、SWE-bench Verified(软件工程)、BFCL-V4(函数调用)、TAU2-Bench(Agent 任务执行)和 IFBench(指令遵循)——这些覆盖了从数学到代码、从工具调用到多步约束场景的完整链条。在 OpenRouter 上,其 GPQA Diamond 达到 75.2%,τ²-Bench Telecom 达到 89.8%。
更值得注意的是其在生产环境中的落地情况。据 OpenRouter 统计,Ling-2.6-1T 已被 Kilo Code(17 亿 tokens)、OpenClaw(8 亿 tokens)、Hermes Agent(3.27 亿 tokens)等开源 Agent 项目大量使用,且兼容 Claude Code、OpenCode、CodeBuddy 等主流 Agent 框架。这不是一个实验室玩具,而是一个正在被真实工作负载验证的模型。
Ring-2.6-1T:可调节的「深推理」
如果说 Ling 追求的是「快」,那么 Ring-2.6-1T 追求的是「深」——但它不是一味地深,而是让开发者可以根据任务复杂度动态调节推理深度。
Ring-2.6-1T 引入了 Reasoning Effort 机制,提供两档可调推理强度:
- high:面向高频 Agent 工作流,适合多轮交互、工具协作、任务分解等生产级场景,在维持高任务完成率的同时减少不必要的推理 token 开销。
- xhigh:面向数学竞赛、科研分析、复杂逻辑推理等高难度任务,给予模型更充分的推理空间。
在 xhigh 模式下,Ring-2.6-1T 交出了一份令人瞩目的成绩单:AIME 26 达到 95.83,与多个领先模型持平;GPQA Diamond 达到 88.27;ARC-AGI-V2 达到 66.18,超越 Gemini 3.1 Pro(high)和 Claude Opus 4.7(xhigh)。在 Agent 执行方面,PinchBench 达到 87.60,高于 GPT-5.4(xHigh)和 Gemini 3.1 Pro(high);Tau2-Bench Telecom 达到 95.32,与最高分模型的差距不到 1 分。
不过需要指出的是,Ring-2.6-1T 的这些数字目前均为 inclusionAI 官方自报,尚未经过 Artificial Analysis 等第三方中立评测的独立验证。这在 2026 年的模型发布环境中是一个需要认真对待的注意事项——多个模型的官方基准在接触中立评测框架后未能完全复现。
万亿参数模型的工程底座
训练万亿参数推理模型的最大挑战,不是参数量本身,而是强化学习的稳定性。传统同步 RL 训练中,策略采样(rollout)和梯度更新紧密耦合,导致 GPU 利用率低下、训练周期漫长、长程训练容易发生策略崩溃。
Ring-2.6-1T 的解决方案是一个异步 RL 训练架构,将策略采样和参数更新解耦为独立流水线,GPU 利用率提升数倍,且天然适合大规模、长时间持续训练。在这个架构之上,团队应用了从 Ring-1T 延续而来的 IcePop 算法来解决训练不稳定性,并提出了 KPop 框架——一个在编程、搜索、工具使用和工作流执行之间进行异步调度的强化学习框架,支持在万亿参数规模上进行大规模环境交互数据的稳定训练。
技术报告还透露了 Ling-2.6 在 token 效率方面的多项创新:演化式思维链(Evolutionary Chain-of-Thought)、语言单元策略优化(Linguistic Unit Policy Optimization)、双向偏好对齐,以及最短正确响应蒸馏。这些方法共同作用于一个目标:让模型用更少的 token 完成同等质量的输出。
部署生态:从 8 卡到 32 卡
两个模型均已开源在 HuggingFace 和 ModelScope,支持 SGLang 和 vLLM 两大主流推理框架。
Ling-2.6-1T 的部署门槛相对友好:官方推荐使用 8 张 GPU 进行 Tensor Parallelism 推理,支持 MTP(Multi-Token Prediction)推测解码以进一步提升吞吐。模型卡提供了完整的 SGLang 和 vLLM 服务启动命令,开发者可以快速上手。
Ring-2.6-1T 的部署则更为重量级:参考配置使用 4 节点共 32 张 GPU(TP 8 × PP 4),FP8 权重约 1TB。目前尚无 GGUF 量化版本,消费级 GPU 无法运行。不过 inclusionAI 同时提供了 Ring-flash-2.0(100B 总参数 / 约 6.1B 激活)和 Ring-mini-2.0(16B 总参数 / 约 1.4B 激活)两个较小版本,后者可运行在单张消费级 GPU 上。
API 方面,Ling-2.6-1T 已通过 OpenRouter 和 ZenMux 提供托管服务,其中 OpenRouter 上的免费端点(inclusionai/ling-2.6-1t:free)允许开发者零成本试用。Ring-2.6-1T 也可通过 ling.tbox.cn 在线体验。
开源万亿参数时代的到来
Ling-2.6-1T 和 Ring-2.6-1T 的发布,标志着开源社区在万亿参数尺度上已经具备了与闭源前沿模型正面对话的能力。回顾 2024 至 2025 年,开源万亿参数模型几乎是一片空白;而进入 2026 年,DeepSeek V4、Kimi K2.6 和 inclusionAI 的 Ling/Ring 2.6 系列先后登场,形成了真正意义上的开源万亿参数竞争格局。
MIT 许可证是 inclusionAI 这一轮发布的独特优势。相比 Kimi K2.6 的修订版 MIT 和 DeepSeek V4 的自定义条款,Ring-2.6-1T 的 MIT 许可在商用衍生、微调分发方面几乎没有限制——这对于需要基于开源模型构建产品的企业来说,是一个实质性的差异点。
当然,Ring-2.6-1T 的第三方中立评测数据仍然缺失,工具链生态(GGUF 量化、社区适配器)也远不如 DeepSeek 和 Qwen 成熟。但 inclusionAI 从 Ling-1T、Ring-1T 到 2.5、2.6 的持续迭代节奏,已经表明这不是一次性的权重发布,而是一个有长期投入的开放研究项目。对于关注开源 AI 前沿的开发者而言,Ling 和 Ring 2.6 不仅值得关注,更值得在自己的基准集上亲自跑一遍。

