• 算力瓶颈如何解开连环套?

  • □蔡恩泽
      算力,已然成为数字时代的核心生产力,却正陷入一张层层缠绕、环环相扣的困局之中。2026年,全球AI算力需求年增速高达45%至60%,而高端GPU供给增速仅15%至20%,长期存在3倍算力缺口。
      算力瓶颈的第一环,是芯片与供应链的刚性“卡脖子”。当前AI算力的核心载体仍是高端GPU,英伟达凭借技术垄断占据全球AI芯片90%份额,H100现货基本枯竭,缺口约43万张,交付周期动辄一年半,下一代Blackwell系列产能早已被谷歌、Meta等大厂包圆。国产昇腾、寒武纪等芯片虽加速追赶,但单卡性能仅为H100的30%至50%,生态适配不完善,难以填补高端缺口。芯片短缺并非孤立问题,而是延伸至封装、光模块、PCB等全链条:台积电CoWoS封装产能缺口超80%,高速光模块、激光器良率不足30%,小型PCB交货周期从六周骤增至六个月。一环断,则全链滞。芯片短缺直接导致算力供给不足,而算力不足又倒逼企业加大采购,进一步推高价格、加剧囤积。
      存储墙与数据搬运低效,是连环套的第二环,也是最易被忽视的隐性瓶颈。算力的核心是数据处理,而当前瓶颈早已从“算得慢”转向“搬得慢”。GPU性能释放高度依赖HBM高带宽内存,2026年全球HBM产能缺口高达50%至60%,SK海力士全年产能早已售罄。冯·诺依曼架构下,超过90%的能耗被浪费于数据在内存与计算单元间的搬运,而非实际计算。智算中心普遍存在“算力空转”现象,分布式训练中网络拥塞导致算力空转率超30%,国内智算中心平均算力使用率仅30%。模型参数持续膨胀,而存储带宽、容量跟不上,GPU长期处于“等数据”状态。
      能源与散热的硬约束,构成连环套的第三环,划定了算力扩张的物理天花板。2026年AI算力电力需求激增,全球数据中心功耗持续攀升,单机柜功耗从传统的15kW飙升至80至120kW。算力中心对电力稳定性要求达到传统制造业标准的三倍,电网微小波动就可能导致集群中断,数日训练成果付诸东流。散热问题同步加剧,风冷已达物理极限,液冷渗透率不足30%,升级成本高昂。能源短缺推高电价,增加算力运营成本;为保障供电,算力中心既被迫向能源产地集中,又受限于土地、网络配套等,进一步制约算力布局。
      算法迭代与生态割裂,将连环套的死结越勒越紧。在需求端,大模型参数规模持续膨胀,多模态、AIAgent普及让算力需求指数级增长,推理算力占比已超60%。企业为抢占技术高地,不断训练更大模型、部署更多集群,进一步放大了算力缺口。在供给端,算力生态呈现严重孤岛化。英伟达与国产芯片互不兼容,不同代际芯片无法打通,训练任务难以无缝迁移。异构硬件互联带宽不足,调度机制落后,“一张卡跑一个任务”导致资源严重浪费。更矛盾的是,算法创新与硬件迭代相互绑架。新算法依赖更强算力,而算力提升又催生更复杂算法,形成“算法升级——算力不够——堆硬件——算法更复杂——算力更缺”的循环。同时,资本盲目涌入,企业囤积硬件、重复建设,加剧算力闲置,让连环套的内耗持续加剧。
      算力连环套的本质,是数字世界指数级增长需求与物理世界线性供给能力的深层矛盾,是技术、产业、地缘与能源的多重博弈。破解这一困局,绝非“多造芯片”就能实现,而是需要全链条系统性突破:短期推进国产芯片与HBM产能建设,完善配套供应链;中期突破存算一体、光电融合等技术,打通数据搬运瓶颈;长期构建统一算力网络,实现异构协同与高效调度,推动绿色算力发展。
      算力连环套困住的不仅是产业发展,更是数字文明的前进脚步。当算力从“增量扩张”转向“存量优化”,从“单点突破”转向“系统协同”,我们才能打破层层缠绕的困局,让算力真正成为驱动创新的引擎,而非束缚发展的枷锁。这场突围注定漫长,但别无选择。

分享到微信朋友圈