极客前沿

极客资讯 正文

韩国AI黑马亮剑:四芯合一,性能比肩H200,功耗更低

2026-03-03 00:31 | Tom's Hardware ...

当AI算力撞上物理极限,芯片江湖迎来新解法

在摩尔定律逐渐失速的今天,AI算力的需求却像脱缰野马般狂奔。台积电、三星的制程工艺进步速度,已经追不上大模型参数膨胀的步伐。于是,芯片巨头们不约而同地转向了同一个方向——多芯粒(Multi-Chiplet)设计。AMD的Zen架构、英特尔的Ponte Vecchio、英伟达的Grace Hopper,都在玩这个“乐高式”拼芯片的游戏。

News Image

但拼归拼,怎么把多个芯粒“粘”在一起高效工作,却是个技术活。行业为此制定了UCIe(统一芯粒互连标准),希望实现高带宽、低延迟的互联。不过,标准推出后一直雷声大雨点小,直到最近ISSCC 2026大会上,一家韩国公司扔出了一颗“王炸”。

News Image

Rebellions Rebel 100:四芯合一,剑指英伟达

这家名叫Rebellions的韩国AI芯片设计公司,亮出了全球首款基于UCIe-A互连的四芯粒AI加速器——Rebel 100。简单来说,它把四块NPU(神经网络处理单元)芯粒,用先进的“胶水”技术粘成了一个整体,性能直接叫板英伟达的当红炸子鸡H200。

News Image

具体怎么做到的?我们拆开看看:

News Image
  • 芯粒:四块320平方毫米的NPU芯粒,采用三星的SF4X工艺制造,每块都配了12层堆叠的HBM3E内存(36GB),总内存容量达到144GB。
  • 互联:通过UCIe-A接口以16Gbps的速度互联,总带宽高达4TB/s,延迟只有11纳秒。这让四块芯粒能像一块芯片那样协同工作,而不是各自为战。
  • 封装:用了三星的I-CubeS先进封装技术(类似台积电的CoWoS),中间还加了硅电容芯粒来保证电源稳定。

性能方面,Rebel 100在600瓦功耗下,能提供2 PFLOPS的FP8算力或1 PFLOPS的FP16算力。对比一下,英伟达H200达到类似性能需要700瓦。Rebellions还宣称,在LLaMA v3.3 70B模型上,单批次处理2k输入/输出序列时,能达到56.8 TPS(每秒处理token数)。当然,这是官方数据,有待第三方验证。

News Image

不只是芯片,更是系统级武器

Rebel 100的野心不止于单芯片性能。它通过两个PCIe 5.0 x16接口连接主机,支持SR-IOV和点对点操作,可以轻松组成跨节点、机架级的大型系统。Rebellions设想,未来合作伙伴可以用几十到上万个这样的加速器搭建集群,支撑万亿参数模型和百万token的上下文长度。

每个芯粒内部还有玄机:集成了两个神经核心集群,每个集群有8个神经核心和32MB共享内存,共享内存带宽高达64TB/s。芯粒内采用8×4网格拓扑的片上网络,数据、请求、控制通道分离,确保高效通信。整个封装内还有256MB的暂存内存,带宽达到惊人的128TB/s。

行业影响:AI芯片战局再添变数

Rebellions的这次亮相,意义不仅在于一款新产品,更在于它证明了UCIe标准在实际产品中的可行性。多芯粒设计不再是纸上谈兵,而是可以量产的解决方案。这对于AI芯片行业来说,可能是一个拐点:

  • 降低门槛:小公司可以用多芯粒设计,绕过单一巨芯的制造难度和成本,挑战巨头。
  • 灵活定制:不同工艺、不同功能的芯粒可以混合封装,满足特定场景需求。
  • 提升良率:小面积芯粒的良率远高于单片巨芯,降低了生产成本。

当然,挑战也不少。多芯粒设计的功耗管理、散热、信号完整性都是难题。UCIe生态的完善也需要时间。但无论如何,Rebellions已经扔出了第一块石头,AI芯片的江湖,看来要更热闹了。

最后说句大实话:在AI算力这条赛道上,没有人能永远躺赢。英伟达固然强大,但挑战者从未停止涌现。Rebellions用四芯合一的方式,证明了“团结就是力量”在芯片界同样适用。接下来,就看其他玩家如何接招了。毕竟,在AI的世界里,唯一不变的就是变化本身。