Gemma 3 上天：首个在轨运行的视觉语言 AI 模型背后的边缘计算革命

2026 年 4 月 16 日，地球观测卫星的历史被改写。Loft Orbital 的 YAM-9 卫星在 500 公里高的近地轨道上，成功运行了 Google DeepMind 的 Gemma 3 视觉语言模型（VLM），对星载传感器实时拍摄的图像进行了自主分类和自然语言描述。这是人类历史上首次有 VLM 在轨运行——卫星不再只是一台绑着无线电发射器的昂贵相机，它开始拥有了"眼睛"和"大脑"。

这一里程碑由 NASA 喷气推进实验室（JPL）的 Juan Delfa Victoria 团队在 arXiv 论文中正式记录，并经由 TechCrunch 在 6 月 15 日首次公开报道。论文显示，Gemma 3 4B 模型在 4-bit 量化下，以 88.16% 的准确率完成了 7,960 张航空影像的分类基准测试，并成功处理了 YAM-9 在轨实时拍摄的、未经校正的原始图像——全程无需微调。

太空不是数据中心：在轨推理必须解决的三个问题

在地球上部署 AI 模型，工程师需要考虑的是 GPU 集群、液冷系统和不断电的电网。在太空中，这三样东西都不存在。YAM-9 的工程团队必须解决三个地球上不存在的问题。

电力预算极度受限。 YAM-9 搭载的 Nvidia Jetson Orin AGX 处理器已经是低轨小卫星所能搭载的性能上限。卫星完全依赖太阳能板供电，而太阳能板的输出随轨道位置剧烈波动——进入地球阴影区时，功率骤降至零，只能靠电池维持。每增加一瓦特的推理功耗，就意味着卫星其他子系统的可用功率被压缩。地面基准测试中，单次 VLM 推理周期在 GPU 加速下仍需数分钟，在纯 CPU 模式下则超过 37 分钟。功耗与性能之间的权衡在太空环境中被放大到极致。

热管理无法依赖对流。 地球上的数据中心依靠风扇和空调将处理器热量通过对流带走。在太空真空中，唯一的散热方式是辐射。Jetson Orin AGX 在高负载下产生的热量必须通过导热材料和辐射器被动排出，否则芯片温度会在数分钟内突破安全阈值。论文中披露的工程模型测试数据显示，在 VLM 推理阶段，GPU 温度持续攀升，系统必须在性能与热安全之间维持精密的平衡。

延迟窗口极短。 低轨卫星以约 7.8 km/s 的速度飞行，飞越一个目标区域的时间窗口通常只有几分钟。传统卫星的"拍摄-下传-地面处理-分析-返回结果"流程耗时数分钟到数小时，在 YAM-9 的架构中被压缩到单次过顶即可完成。推理必须在图像捕获后的极短时间内完成——飞船不会等你。论文记录显示，两次在轨实时捕获的图像在 20 秒的帧间间隔内完成了硬件加速 GPU 推理，满足飞行热约束和功率约束。

这三个问题的同时解决，是 YAM-9 任务最核心的工程成就。

为什么是 Gemma 3：Google 开源策略的意外战略回报

YAM-9 选择 Gemma 3 并非偶然——它是目前唯一能同时满足太空部署所有约束条件的 VLM。

Gemma 3 是 Google DeepMind 推出的开源权重模型家族，参数规模从 1B 到 27B 不等。其架构中有两项关键设计直接决定了它适合在轨部署。第一，SigLIP 视觉编码器将图像转化为 token 嵌入，与文本 token 联合处理后由语言模型解码——这让卫星操作员可以用自然语言提问，模型用自然语言回答。第二，5:1 的局部-全局注意力层比例大幅降低了 KV-cache 的内存压力，在长上下文窗口下（最高 128K tokens）仍能保持可预测的内存占用。对于内存极度受限的轨道硬件，这一特性至关重要。

但仅有模型架构不够。JPL 团队开发的 NAVI-Orbital 软件框架才是将 Gemma 3 送入太空的关键。它通过 llama.cpp 的 GGUF 量化格式将 Gemma 3 4B 压缩为 Q4_0 精度，剥离了模型在太空计算机上无法承载的大量软件库依赖，并利用 LangGraph 构建了一个由三个自主 Agent 组成的有向状态图：Orchestrator 协调执行，Detector 分析、分类和描述图像，Dialogue Agent 允许操作员对结果进行追问。整个推理管道在卫星的边缘计算硬件上以自主循环方式持续运行。

从更宏观的视角看，YAM-9 的成功是 Google 开源策略的一个意外但深远的战略回报。Gemma 系列最初定位为"可在单 GPU 上运行的最强开源模型"，其设计初衷是让开发者能在手机、浏览器和边缘设备上运行 AI。Google 可能没有预料到，这个"边缘优先"的设计理念最终让它成为了第一个进入太空的 VLM。相比之下，那些参数规模更大但需要数据中心级基础设施的闭源模型，在太空环境中毫无竞争力。开源 + 轻量化 + 可量化，这三者的组合产生了远超 Google 最初预期的战略价值。

商业逻辑：从"下传一切"到"只传答案"

要理解 YAM-9 的商业价值，必须先理解传统卫星成像的架构瓶颈。

一颗高分辨率对地观测卫星每天产生 1 到 2 TB 的图像数据。它与地面站的通信窗口每次仅持续 5 到 15 分钟，每天只有 4 到 6 次。射频下传速度下，每天只有一小部分数据能到达地面，其余数据被新数据覆盖。更糟糕的是，研究表明约 67% 的卫星原始图像被云层遮挡，几乎没有分析价值——但在传统"弯管"架构下，所有数据都会被无差别下传。

在轨 VLM 从根本上颠覆了这一模式。卫星不再下传原始像素，而是下传分类结果、场景描述和标注后的裁剪图像。从 TB 级的原始数据到 MB 级的结构化情报——这不是优化，是范式转换。

Loft Orbital 的 AI 负责人 Paul Lasserre 对 TechCrunch 的表述直击要害："有了 VLM，你可以拥有逻辑——比如'帮我监控这条边界，有可疑情况通知我'，然后与卫星进行来回交互。"这种持续、对话式的轨道资产任务模式，在传统架构下根本无法实现。

商业落地已经在推进。Loft Orbital 已与欧洲国防 AI 公司 Helsing 达成战略合作，部署多传感器卫星星座，为政府和军事客户提供实时态势感知。在非国防领域，农业监测、海上船只识别、环境监测和灾害评估都是直接受益场景。当野火蔓延或河流三角洲洪水泛滥时，卫星过顶后数小时才送达的分析报告与单次过顶即完成的实时评估之间的差距，直接决定了应急响应是有效行动还是盲目作业。

Loft 当前在轨运行 12 颗卫星，Lasserre 估计实现全球实时覆盖需要 50 到 100 颗具备同等 AI 能力的卫星。这个数字本身就是对市场空间的量化。

边缘 AI 的太空转折点

YAM-9 的意义超越了单一任务的成功。它是"边缘 AI"叙事从手机和 IoT 设备向太空延伸的起点。

趋势已经清晰可见。Planet Labs 运营着数百颗搭载 Jetson Orin 处理器的 Dove 和 SuperDove 立方星，目前已用于简单目标检测，VLM 研究正在进行中。其工程副总裁 Kiruthika Devaraj 对 IEEE Spectrum 表示："我们希望把大脑、所有计算能力放在传感器旁边，这样我们构建的卫星系统就像一个生物网络，实时响应刺激。"Kepler Communications 在 2026 年 3 月启用了全球最大的轨道计算集群——40 个 Nvidia Jetson Orin 模块分布在 10 颗卫星上，通过激光星间链路互联。Axiom Space 在 2026 年 1 月发射了首批轨道数据中心节点。Nvidia 在 GTC 2026 上正式发布了 Space-1 Vera Rubin 模块，声称其空间推理性能比 H100 提升 25 倍。

但轨道 AI 的现实约束同样不容忽视。YAM-9 是探路者，不是生产系统。公开数据中缺少推理延迟、分类准确率随云层和传感器噪声退化的详细指标。在轨软件更新——向 50 到 100 颗无法物理接触的卫星推送新版模型——是一个尚未解决的运维难题。热管理和功耗预算在更大规模星座中将变得更加严峻。

然而，方向已经确立。未来每颗卫星都有可能成为一个 AI 推理节点，地球观测产业的架构正从"传感器-地面站-数据中心"三级结构向"传感器即推理节点"的扁平化模式演进。当卫星不再仅仅是一台相机，而是开始成为分析师时，整个产业的价值链重心也随之转移——从谁拥有最好的传感器，到谁拥有最强的在轨推理能力。

YAM-9 完成了关键的第一步：证明了这不仅是可行的，而且是可用的。接下来的问题不再是"能否做到"，而是"多快能做到"。

太空不是数据中心：在轨推理必须解决的三个问题

为什么是 Gemma 3：Google 开源策略的意外战略回报

商业逻辑：从"下传一切"到"只传答案"

边缘 AI 的太空转折点

评论