极客前沿

极客资讯 正文

AMD MI355X黑科技:CU减半性能翻倍,硬刚英伟达GB200

2026-02-28 00:33 | Tom's Hardware ...

当AMD在ISSCC舞台上亮出底牌

旧金山时间2月16日,ISSCC国际固态电路大会的聚光灯下,AMD资深设计工程师Ramasamy Adaikkalavan走上讲台。他手里拿着的不是新款显卡,而是一份让整个AI芯片圈屏息的技术解密报告——关于那颗已经在去年6月发布的Instinct MI355X AI加速卡,业界直到此刻才真正看清它的内力有多深厚。

反直觉的数学题:32>38?

最让人掉下巴的数据摆在最前面:MI355X的每个加速器复合芯片(XCD)里,计算单元(CU)从MI300X的38个缩减到了32个。按常理,这该是个性能倒退的信号,但AMD的工程师们偏偏解出了一道反常识的方程式。

News Image

“32这个数字是我们精心选择的,”Adaikkalavan解释道,“它保持了2的幂次结构。”在AI计算的世界里,2的幂次就像乐高积木的标准接口——让工作负载可以像切蛋糕一样均匀分配给每个计算单元,避免最后一块“边角料”拖慢整体速度。这种设计消除了所谓的“尾部效应”,让芯片始终保持在高效状态。

但真正的魔法发生在每个计算单元内部。AMD没有简单粗暴地堆砌更多计算硬件,而是对矩阵执行单元进行了外科手术式的重构。结果?每个CU的FP8计算吞吐量直接从每时钟周期4096次浮点运算翻倍到8192次。用极客们能听懂的话说:虽然“工人”少了,但每个“工人”都变成了超人。

News Image

芯片设计的“共享经济”

如果说传统芯片设计是在“专用硬件”(性能高但面积大)和“全共享硬件”(面积小但效率低)之间二选一,那么AMD这次玩的是精准的“选择性共享”。

工程师们像精算师一样分析了每个算术组件,只在功耗代价可接受的范围内共享硬件。这种策略让MI355X在保持110平方毫米芯片面积不变的情况下,实现了5 petaflops的FP8计算能力——比前代提升了1.9倍。

News Image

“这就像在北上广深合租房子,”一位行业观察者打了个生动的比方,“你不能给每个人都配独立卫浴(太贵),也不能让大家共用一个厕所(太挤)。AMD找到了那个完美的平衡点——厨房共享,卧室独立。”

3纳米时代的布线战争

当芯片工艺进入3纳米节点,一个尴尬的事实浮现:晶体管还能继续缩小,但连接它们的金属布线却跟不上了。在MI355X上,布线功耗占总开关功耗的比例达到了历史新高。

News Image

AMD的应对策略堪称教科书级别。首先,他们从台积电N5工艺升级到N3P,金属层从15层增加到17层——这相当于给芯片的“高速公路系统”增加了两条高架桥。但光有路不够,还得优化交通。

团队采用了基于机器学习的布局算法,精心规划每个功能模块的位置,就像玩一场超高难度的俄罗斯方块,目标是最小化关键信号线的长度。再加上定制化的时钟门控单元——这些“智能开关”能检测到数据流中的重复0或1序列,及时关闭不必要的时钟切换——最终实现了比MI300X降低30%以上的开关电容。

News Image

少即是多的I/O哲学

MI300X用了四个独立的I/O芯片,而MI355X精简到两个更大的芯片直接相连。这个看似简单的合并,带来了意想不到的连锁反应。

更少的芯片间互连意味着AMD可以移除那些处理域交叉和协议转换的冗余电路。腾出来的空间被用来拓宽Infinity Fabric数据管道,结果就是:HBM内存带宽从5.3TB/s飙升到8.0TB/s,而且能在更低的电压和频率下运行。

“每瓦HBM读取带宽提升1.3倍”——这个数字背后,是芯片设计从“堆料”到“精算”的思维转变。AMD甚至通过定制布线工程,在I/O芯片上实现了约20%的互连功耗降低,虽然官方谨慎地表示这些还是初步估算。

行业冲击波正在形成

当Adaikkalavan说出“我们实际上匹配了更昂贵、更复杂的GB200的性能”时,会场响起了一阵低语。他指的是英伟达的旗舰AI芯片,那个让无数科技公司又爱又恨的“算力吞金兽”。

MI355X的故事不只是技术参数的胜利,它传递了一个更重要的信号:在AI算力军备竞赛中,单纯堆砌晶体管数量的时代可能正在过去。通过架构创新、智能共享和精准优化,完全可以用更优雅的方式实现性能突破。

对于正在建设AI数据中心的企业来说,这意味着选择的天平开始倾斜。如果花更少的钱能买到相近的性能,为什么还要为冗余的复杂性买单?

当然,英伟达的软件生态和CUDA护城河依然坚固,但AMD这次展示的不仅是硬件实力,更是一种设计哲学——在摩尔定律放缓的时代,聪明比强大更重要。这场AI芯片的马拉松,好戏才刚刚开始。