【量子位 2025年12月11日讯】在全球AI军备竞赛进入白热化阶段,谷歌抛出关键人事调整。12月10日,据TechCrunch援引内部备忘录报道,谷歌正式设立“AI基础设施首席技术专家”新职位,任命深耕公司15年的Amin Vahdat担任,该职位直接向CEO桑达尔·皮查伊汇报。这一变动不仅凸显谷歌对AI基建的战略重视——其计划2025年底前投入高达930亿美元资本开支,且母公司Alphabet预计明年投入将进一步扩大,更揭开了这位“数据中心技术幕后推手”如何用定制芯片、超高速网络和集群管理系统,为谷歌构筑起难以复制的算力护城河。
15年谷歌生涯:从“隐形架构师”到AI基建掌舵人
Amin Vahdat并非行业新人,而是谷歌AI底层技术的核心构建者。这位拥有加州大学伯克利分校计算机科学博士学位的学者,早在20世纪90年代初就以研究实习生身份涉足前沿科技(曾任职于施乐PARC),2010年正式加入谷歌前,还曾在杜克大学、加州大学圣迭戈分校担任教授,学术履历亮眼——发表约395篇论文,研究方向始终聚焦“大规模计算机高效运行”,为其后续打造谷歌AI基建奠定理论基础。
加入谷歌后,Vahdat从工程研究员兼副总裁起步,用15年时间成为公司“隐形的技术支柱”,其主导的核心成果几乎覆盖谷歌AI算力的全链条:
-
定制化芯片:TPU家族的“进化引擎”作为谷歌AI训练与推理的核心硬件,TPU(张量处理单元)的迭代离不开Vahdat的推动。今年4月的Google Cloud Next大会上,他以机器学习、系统及云AI领域副总裁兼总经理身份,发布第七代TPU“铁杉(Ironwood)”,单Pod搭载超9000颗芯片,算力达42.5艾字节每秒(EFlops)——相当于当时全球TOP1超级计算机的24倍以上。这一硬件突破,直接为谷歌Gemini大模型、搜索AI升级等提供了底层算力支撑,也让谷歌在与OpenAI等对手的竞争中,握有“定制化硬件适配”的独特优势。
-
超高速网络:Jupiter构建“数据传输大动脉”大模型训练需海量数据跨服务器流动,Vahdat主导研发的Jupiter内部网络,成为解决这一难题的关键。据他去年底发布的博客,Jupiter网络带宽已突破13拍比特每秒(Pb/s),“理论上可支持全球80亿人同时进行视频通话”。这套网络如同谷歌数据中心的“大动脉”,连接起全球数百个数据中心的服务器,确保从YouTube视频解析到AI模型训练的数据传输高效无阻,而低延迟、高稳定性的特性,也成为谷歌大模型快速迭代的重要保障。
-
集群管理与通用CPU:从“大脑”到“基础算力”的全覆盖除了芯片和网络,Vahdat还深度参与谷歌核心软件系统的开发:一是Borg集群管理系统——相当于谷歌数据中心的“大脑”,负责协调全球服务器的任务分配(如“哪台服务器运行训练任务、持续多久”),确保算力资源不浪费;二是Axion CPU——谷歌首款面向数据中心的定制化Arm架构通用CPU,2024年发布后持续迭代,为AI推理、数据处理等场景提供低成本、高适配的基础算力支持。
人事变动背后:谷歌的“双重战略”
谷歌设立新职位并提拔Vahdat,绝非单纯的人事调整,而是应对AI军备竞赛的“双重布局”,既瞄准技术突破,也着眼人才留存。
从技术战略来看,随着AI算力需求呈指数级增长(Vahdat曾公开表示“过去8年AI算力需求增长1亿倍”),基础设施已成为决定企业AI竞争力的核心变量。谷歌此次将AI基建负责人直接对接CEO,本质是“缩短决策链路”,让Vahdat能更高效地统筹资源——无论是930亿美元资本开支的落地(如数据中心扩建、新TPU量产),还是底层技术的迭代(如Jupiter网络升级、下一代TPU研发),都能更快速响应业务需求。
从人才留存角度,当前AI顶尖人才已成“兵家必争之地”,薪资水涨船高且挖角频繁。Vahdat作为谷歌用15年培养的“算力架构核心”,掌握着公司最核心的技术路径与资源布局,将其擢升至直接向CEO汇报的高管层,既是对其过往贡献的认可,也是通过“权责升级”巩固人才稳定性——毕竟,对谷歌而言,失去这样一位“从0到1搭建AI基建”的关键人物,损失远非短期招聘能弥补。
行业对比:巨头AI基建路线分化,谷歌押注“全栈自研”
Vahdat的上任,也折射出当前科技巨头在AI基建布局上的差异化路线。
与谷歌“全栈自研”(从芯片TPU、网络Jupiter到管理系统Borg全链条把控)不同,其他厂商多采取“部分自研+合作”模式:例如OpenAI依赖英伟达GPU构建算力集群,微软推出自研AI芯片Maia但网络与管理系统仍需外部适配,亚马逊AWS的Trainium芯片也需与第三方网络设备兼容。
这种差异的核心在于谷歌的“长期主义”——早在2016年就推出第一代TPU,通过10余年持续投入,形成“硬件-网络-软件”的协同优势。而Vahdat此次掌舵AI基建,或将进一步强化这一优势:一方面推动TPU与Jupiter网络的深度耦合,提升AI任务的端到端效率;另一方面可能加速Axion CPU与AI场景的适配,降低推理阶段的算力成本,为谷歌AI业务(如Cloud AI服务、搜索智能化)提供更具性价比的底层支撑。
未来挑战:930亿开支如何“花在刀刃上”?
尽管手握技术与资源,Vahdat仍面临不小挑战。首先是“算力需求与成本的平衡”——谷歌计划2025年底前投入930亿美元资本开支,如何将资金高效分配至TPU量产、数据中心扩建、网络升级等环节,避免资源浪费,考验其战略判断力;其次是“技术迭代速度”——英伟达等对手正加速推出新一代GPU(如GB200),OpenAI也在探索定制化芯片,Vahdat需带领团队保持TPU、Jupiter网络的迭代节奏,确保谷歌不落后于行业前沿;最后是“生态适配”——谷歌AI基建不仅要服务内部业务,还需向外部客户开放(如通过Google Cloud提供TPU算力),如何平衡“内部需求优先级”与“外部客户体验”,也是其需解决的问题。
不过,从Vahdat过往的技术落地能力来看,市场仍抱有期待。正如谷歌内部备忘录所强调,“AI基建是决定未来10年科技竞争格局的关键”,而这位15年磨一剑的“算力架构师”,无疑已成为谷歌在这场竞赛中最核心的“技术舵手”。随着他正式掌舵,谷歌AI基建的下一步动作——无论是下一代TPU的研发,还是Jupiter网络的全球化扩容,都将持续影响全球AI产业的算力格局。