谷歌押注AI基建：提拔15年技术核心Amin Vahdat，930亿资本开支背后的“算力护城河”布局

0 0

【量子位 2025年12月11日讯】在全球AI军备竞赛进入白热化阶段，谷歌抛出关键人事调整。12月10日，据TechCrunch援引内部备忘录报道，谷歌正式设立“AI基础设施首席技术专家”新职位，任命深耕公司15年的Amin Vahdat担任，该职位直接向CEO桑达尔·皮查伊汇报。这一变动不仅凸显谷歌对AI基建的战略重视——其计划2025年底前投入高达930亿美元资本开支，且母公司Alphabet预计明年投入将进一步扩大，更揭开了这位“数据中心技术幕后推手”如何用定制芯片、超高速网络和集群管理系统，为谷歌构筑起难以复制的算力护城河。

15年谷歌生涯：从“隐形架构师”到AI基建掌舵人

Amin Vahdat并非行业新人，而是谷歌AI底层技术的核心构建者。这位拥有加州大学伯克利分校计算机科学博士学位的学者，早在20世纪90年代初就以研究实习生身份涉足前沿科技（曾任职于施乐PARC），2010年正式加入谷歌前，还曾在杜克大学、加州大学圣迭戈分校担任教授，学术履历亮眼——发表约395篇论文，研究方向始终聚焦“大规模计算机高效运行”，为其后续打造谷歌AI基建奠定理论基础。

加入谷歌后，Vahdat从工程研究员兼副总裁起步，用15年时间成为公司“隐形的技术支柱”，其主导的核心成果几乎覆盖谷歌AI算力的全链条：

定制化芯片：TPU家族的“进化引擎”作为谷歌AI训练与推理的核心硬件，TPU（张量处理单元）的迭代离不开Vahdat的推动。今年4月的Google Cloud Next大会上，他以机器学习、系统及云AI领域副总裁兼总经理身份，发布第七代TPU“铁杉（Ironwood）”，单Pod搭载超9000颗芯片，算力达42.5艾字节每秒（EFlops）——相当于当时全球TOP1超级计算机的24倍以上。这一硬件突破，直接为谷歌Gemini大模型、搜索AI升级等提供了底层算力支撑，也让谷歌在与OpenAI等对手的竞争中，握有“定制化硬件适配”的独特优势。
超高速网络：Jupiter构建“数据传输大动脉”大模型训练需海量数据跨服务器流动，Vahdat主导研发的Jupiter内部网络，成为解决这一难题的关键。据他去年底发布的博客，Jupiter网络带宽已突破13拍比特每秒（Pb/s），“理论上可支持全球80亿人同时进行视频通话”。这套网络如同谷歌数据中心的“大动脉”，连接起全球数百个数据中心的服务器，确保从YouTube视频解析到AI模型训练的数据传输高效无阻，而低延迟、高稳定性的特性，也成为谷歌大模型快速迭代的重要保障。
集群管理与通用CPU：从“大脑”到“基础算力”的全覆盖除了芯片和网络，Vahdat还深度参与谷歌核心软件系统的开发：一是Borg集群管理系统——相当于谷歌数据中心的“大脑”，负责协调全球服务器的任务分配（如“哪台服务器运行训练任务、持续多久”），确保算力资源不浪费；二是Axion CPU——谷歌首款面向数据中心的定制化Arm架构通用CPU，2024年发布后持续迭代，为AI推理、数据处理等场景提供低成本、高适配的基础算力支持。

人事变动背后：谷歌的“双重战略”

谷歌设立新职位并提拔Vahdat，绝非单纯的人事调整，而是应对AI军备竞赛的“双重布局”，既瞄准技术突破，也着眼人才留存。

从技术战略来看，随着AI算力需求呈指数级增长（Vahdat曾公开表示“过去8年AI算力需求增长1亿倍”），基础设施已成为决定企业AI竞争力的核心变量。谷歌此次将AI基建负责人直接对接CEO，本质是“缩短决策链路”，让Vahdat能更高效地统筹资源——无论是930亿美元资本开支的落地（如数据中心扩建、新TPU量产），还是底层技术的迭代（如Jupiter网络升级、下一代TPU研发），都能更快速响应业务需求。

从人才留存角度，当前AI顶尖人才已成“兵家必争之地”，薪资水涨船高且挖角频繁。Vahdat作为谷歌用15年培养的“算力架构核心”，掌握着公司最核心的技术路径与资源布局，将其擢升至直接向CEO汇报的高管层，既是对其过往贡献的认可，也是通过“权责升级”巩固人才稳定性——毕竟，对谷歌而言，失去这样一位“从0到1搭建AI基建”的关键人物，损失远非短期招聘能弥补。

行业对比：巨头AI基建路线分化，谷歌押注“全栈自研”

Vahdat的上任，也折射出当前科技巨头在AI基建布局上的差异化路线。

与谷歌“全栈自研”（从芯片TPU、网络Jupiter到管理系统Borg全链条把控）不同，其他厂商多采取“部分自研+合作”模式：例如OpenAI依赖英伟达GPU构建算力集群，微软推出自研AI芯片Maia但网络与管理系统仍需外部适配，亚马逊AWS的Trainium芯片也需与第三方网络设备兼容。

这种差异的核心在于谷歌的“长期主义”——早在2016年就推出第一代TPU，通过10余年持续投入，形成“硬件-网络-软件”的协同优势。而Vahdat此次掌舵AI基建，或将进一步强化这一优势：一方面推动TPU与Jupiter网络的深度耦合，提升AI任务的端到端效率；另一方面可能加速Axion CPU与AI场景的适配，降低推理阶段的算力成本，为谷歌AI业务（如Cloud AI服务、搜索智能化）提供更具性价比的底层支撑。

未来挑战：930亿开支如何“花在刀刃上”？

尽管手握技术与资源，Vahdat仍面临不小挑战。首先是“算力需求与成本的平衡”——谷歌计划2025年底前投入930亿美元资本开支，如何将资金高效分配至TPU量产、数据中心扩建、网络升级等环节，避免资源浪费，考验其战略判断力；其次是“技术迭代速度”——英伟达等对手正加速推出新一代GPU（如GB200），OpenAI也在探索定制化芯片，Vahdat需带领团队保持TPU、Jupiter网络的迭代节奏，确保谷歌不落后于行业前沿；最后是“生态适配”——谷歌AI基建不仅要服务内部业务，还需向外部客户开放（如通过Google Cloud提供TPU算力），如何平衡“内部需求优先级”与“外部客户体验”，也是其需解决的问题。

不过，从Vahdat过往的技术落地能力来看，市场仍抱有期待。正如谷歌内部备忘录所强调，“AI基建是决定未来10年科技竞争格局的关键”，而这位15年磨一剑的“算力架构师”，无疑已成为谷歌在这场竞赛中最核心的“技术舵手”。随着他正式掌舵，谷歌AI基建的下一步动作——无论是下一代TPU的研发，还是Jupiter网络的全球化扩容，都将持续影响全球AI产业的算力格局。

# AI 资讯