极客前沿

当AMD在ISSCC舞台上亮出底牌

旧金山时间2月16日，ISSCC国际固态电路大会的聚光灯下，AMD资深设计工程师Ramasamy Adaikkalavan走上讲台。他手里拿着的不是新款显卡，而是一份让整个AI芯片圈屏息的技术解密报告——关于那颗已经在去年6月发布的Instinct MI355X AI加速卡，业界直到此刻才真正看清它的内力有多深厚。

反直觉的数学题：32＞38？

最让人掉下巴的数据摆在最前面：MI355X的每个加速器复合芯片（XCD）里，计算单元（CU）从MI300X的38个缩减到了32个。按常理，这该是个性能倒退的信号，但AMD的工程师们偏偏解出了一道反常识的方程式。

“32这个数字是我们精心选择的，”Adaikkalavan解释道，“它保持了2的幂次结构。”在AI计算的世界里，2的幂次就像乐高积木的标准接口——让工作负载可以像切蛋糕一样均匀分配给每个计算单元，避免最后一块“边角料”拖慢整体速度。这种设计消除了所谓的“尾部效应”，让芯片始终保持在高效状态。

但真正的魔法发生在每个计算单元内部。AMD没有简单粗暴地堆砌更多计算硬件，而是对矩阵执行单元进行了外科手术式的重构。结果？每个CU的FP8计算吞吐量直接从每时钟周期4096次浮点运算翻倍到8192次。用极客们能听懂的话说：虽然“工人”少了，但每个“工人”都变成了超人。

芯片设计的“共享经济”

如果说传统芯片设计是在“专用硬件”（性能高但面积大）和“全共享硬件”（面积小但效率低）之间二选一，那么AMD这次玩的是精准的“选择性共享”。

工程师们像精算师一样分析了每个算术组件，只在功耗代价可接受的范围内共享硬件。这种策略让MI355X在保持110平方毫米芯片面积不变的情况下，实现了5 petaflops的FP8计算能力——比前代提升了1.9倍。

“这就像在北上广深合租房子，”一位行业观察者打了个生动的比方，“你不能给每个人都配独立卫浴（太贵），也不能让大家共用一个厕所（太挤）。AMD找到了那个完美的平衡点——厨房共享，卧室独立。”

3纳米时代的布线战争

当芯片工艺进入3纳米节点，一个尴尬的事实浮现：晶体管还能继续缩小，但连接它们的金属布线却跟不上了。在MI355X上，布线功耗占总开关功耗的比例达到了历史新高。

AMD的应对策略堪称教科书级别。首先，他们从台积电N5工艺升级到N3P，金属层从15层增加到17层——这相当于给芯片的“高速公路系统”增加了两条高架桥。但光有路不够，还得优化交通。

团队采用了基于机器学习的布局算法，精心规划每个功能模块的位置，就像玩一场超高难度的俄罗斯方块，目标是最小化关键信号线的长度。再加上定制化的时钟门控单元——这些“智能开关”能检测到数据流中的重复0或1序列，及时关闭不必要的时钟切换——最终实现了比MI300X降低30%以上的开关电容。

少即是多的I/O哲学

MI300X用了四个独立的I/O芯片，而MI355X精简到两个更大的芯片直接相连。这个看似简单的合并，带来了意想不到的连锁反应。

更少的芯片间互连意味着AMD可以移除那些处理域交叉和协议转换的冗余电路。腾出来的空间被用来拓宽Infinity Fabric数据管道，结果就是：HBM内存带宽从5.3TB/s飙升到8.0TB/s，而且能在更低的电压和频率下运行。

“每瓦HBM读取带宽提升1.3倍”——这个数字背后，是芯片设计从“堆料”到“精算”的思维转变。AMD甚至通过定制布线工程，在I/O芯片上实现了约20%的互连功耗降低，虽然官方谨慎地表示这些还是初步估算。

行业冲击波正在形成

当Adaikkalavan说出“我们实际上匹配了更昂贵、更复杂的GB200的性能”时，会场响起了一阵低语。他指的是英伟达的旗舰AI芯片，那个让无数科技公司又爱又恨的“算力吞金兽”。

MI355X的故事不只是技术参数的胜利，它传递了一个更重要的信号：在AI算力军备竞赛中，单纯堆砌晶体管数量的时代可能正在过去。通过架构创新、智能共享和精准优化，完全可以用更优雅的方式实现性能突破。

对于正在建设AI数据中心的企业来说，这意味着选择的天平开始倾斜。如果花更少的钱能买到相近的性能，为什么还要为冗余的复杂性买单？

当然，英伟达的软件生态和CUDA护城河依然坚固，但AMD这次展示的不仅是硬件实力，更是一种设计哲学——在摩尔定律放缓的时代，聪明比强大更重要。这场AI芯片的马拉松，好戏才刚刚开始。