极客前沿

当AI算力撞上物理极限，芯片江湖迎来新解法

在摩尔定律逐渐失速的今天，AI算力的需求却像脱缰野马般狂奔。台积电、三星的制程工艺进步速度，已经追不上大模型参数膨胀的步伐。于是，芯片巨头们不约而同地转向了同一个方向——多芯粒（Multi-Chiplet）设计。AMD的Zen架构、英特尔的Ponte Vecchio、英伟达的Grace Hopper，都在玩这个“乐高式”拼芯片的游戏。

但拼归拼，怎么把多个芯粒“粘”在一起高效工作，却是个技术活。行业为此制定了UCIe（统一芯粒互连标准），希望实现高带宽、低延迟的互联。不过，标准推出后一直雷声大雨点小，直到最近ISSCC 2026大会上，一家韩国公司扔出了一颗“王炸”。

Rebellions Rebel 100：四芯合一，剑指英伟达

这家名叫Rebellions的韩国AI芯片设计公司，亮出了全球首款基于UCIe-A互连的四芯粒AI加速器——Rebel 100。简单来说，它把四块NPU（神经网络处理单元）芯粒，用先进的“胶水”技术粘成了一个整体，性能直接叫板英伟达的当红炸子鸡H200。

具体怎么做到的？我们拆开看看：

芯粒：四块320平方毫米的NPU芯粒，采用三星的SF4X工艺制造，每块都配了12层堆叠的HBM3E内存（36GB），总内存容量达到144GB。
互联：通过UCIe-A接口以16Gbps的速度互联，总带宽高达4TB/s，延迟只有11纳秒。这让四块芯粒能像一块芯片那样协同工作，而不是各自为战。
封装：用了三星的I-CubeS先进封装技术（类似台积电的CoWoS），中间还加了硅电容芯粒来保证电源稳定。

性能方面，Rebel 100在600瓦功耗下，能提供2 PFLOPS的FP8算力或1 PFLOPS的FP16算力。对比一下，英伟达H200达到类似性能需要700瓦。Rebellions还宣称，在LLaMA v3.3 70B模型上，单批次处理2k输入/输出序列时，能达到56.8 TPS（每秒处理token数）。当然，这是官方数据，有待第三方验证。

不只是芯片，更是系统级武器

Rebel 100的野心不止于单芯片性能。它通过两个PCIe 5.0 x16接口连接主机，支持SR-IOV和点对点操作，可以轻松组成跨节点、机架级的大型系统。Rebellions设想，未来合作伙伴可以用几十到上万个这样的加速器搭建集群，支撑万亿参数模型和百万token的上下文长度。

每个芯粒内部还有玄机：集成了两个神经核心集群，每个集群有8个神经核心和32MB共享内存，共享内存带宽高达64TB/s。芯粒内采用8×4网格拓扑的片上网络，数据、请求、控制通道分离，确保高效通信。整个封装内还有256MB的暂存内存，带宽达到惊人的128TB/s。

行业影响：AI芯片战局再添变数

Rebellions的这次亮相，意义不仅在于一款新产品，更在于它证明了UCIe标准在实际产品中的可行性。多芯粒设计不再是纸上谈兵，而是可以量产的解决方案。这对于AI芯片行业来说，可能是一个拐点：

降低门槛：小公司可以用多芯粒设计，绕过单一巨芯的制造难度和成本，挑战巨头。
灵活定制：不同工艺、不同功能的芯粒可以混合封装，满足特定场景需求。
提升良率：小面积芯粒的良率远高于单片巨芯，降低了生产成本。

当然，挑战也不少。多芯粒设计的功耗管理、散热、信号完整性都是难题。UCIe生态的完善也需要时间。但无论如何，Rebellions已经扔出了第一块石头，AI芯片的江湖，看来要更热闹了。

最后说句大实话：在AI算力这条赛道上，没有人能永远躺赢。英伟达固然强大，但挑战者从未停止涌现。Rebellions用四芯合一的方式，证明了“团结就是力量”在芯片界同样适用。接下来，就看其他玩家如何接招了。毕竟，在AI的世界里，唯一不变的就是变化本身。