【量子位 2025年12月31日讯】当全行业还在为“降本增效”争论不休时,新加坡国立大学校长青年教授、潞晨科技创始人尤洋抛出了一个颠覆性问题:“若手握300亿美元预算,今天真能训出比GPT-4强几个维度的模型吗?”在其最新长文《智能增长的瓶颈》中,尤洋直指AI行业核心困境——当前技术范式已快“消化”不动持续增长的算力,智能与算力之间的正反馈链路正在松动,所谓“增长瓶颈”,本质是算力转化为智能的效率大幅下滑。
这一观点打破了“堆算力就能涨智能”的行业共识,更从“智能本质”“技术范式”“未来破局方向”三个维度,拆解了AI增长停滞的底层逻辑,为深陷“Scaling Law焦虑”的行业提供了新的思考视角。
一、重新定义智能:核心不是“解释”,而是“预测”
要理解AI增长瓶颈,首先需厘清“智能”的本质。尤洋没有沿用哲学或学术定义,而是给出了一个极具工程意义的判断标准:智能的核心是对未来状态的预测能力,以及为预测结果承担实际后果的能力。
这一判断直指当前AI的短板:
-
许多模型在封闭评测中表现出色,能流畅组织、解释已有信息,但进入真实世界后,却难以在不确定环境中做出稳定、可执行的决策——比如在高风险医疗诊断、复杂人生规划等场景中,人类仍不敢完全依赖AI;
-
即便像GPT-4这样的顶尖模型,其“Next-Token Prediction”(下一个token预测)能力虽强,但这种基于历史数据的概率生成,本质是对已有信息的“重组”,而非对未来的“预判”,更无法像人类一样为决策后果负责。
尤洋强调,将智能聚焦于“预测”,并非否定智能的丰富内涵(如规划、因果建模),而是为算力投入与智能增长划定了可量化的对齐维度——只有当算力能稳定转化为“预测能力”时,才算真正产生了价值。
二、Transformer的成功密码:不是像人脑,而是适配GPU
为何过去十年AI能实现指数级增长?尤洋回溯历史,指出这一轮智能跃迁的成立,依赖“硬件、架构、目标”三者的完美契合,而Transformer的成功,本质是“系统性匹配”的胜利,而非单纯的算法突破:
1. 硬件:GPU提供并行算力基础
英伟达GPU的指数级并行算力增长,为大模型训练提供了“燃料”——GPU的架构天然适合大规模矩阵运算,能同时处理海量数据,这是CPU时代无法实现的效率。
2. 架构:Transformer是“伪装成神经网络的并行计算机”
Transformer的核心优势并非“更像人脑”,而是其计算结构能100%适配GPU的并行逻辑:
-
自注意力机制可拆解为独立的矩阵运算,能被GPU高效并行处理,不存在循环依赖导致的算力闲置;
-
相比RNN、LSTM等序列模型,Transformer能充分“吃下”GPU提供的算力,避免硬件性能浪费。
3. 目标:Next-Token Prediction提供统一学习信号
“下一个token预测”这一训练目标,为模型提供了近乎无限的训练数据(海量文本),且目标清晰统一——无需人工标注复杂任务,模型只需通过预测下一个token,就能间接学习语言、知识与逻辑,这种“简单目标驱动复杂能力”的模式,完美适配了“算力堆料”的逻辑。
三者协同,形成了“算力增长→模型规模扩大→智能提升”的稳定正反馈,这也是GPT-1到GPT-4能持续突破的核心原因。但如今,这条链路正在断裂。
三、瓶颈真相:不是算力不够,而是“吃不动”了
尤洋提出了一个判断AI增长瓶颈的核心标准:当训练算力从10ⁿ FLOPS(每秒浮点运算)提升到10ⁿ⁺³ FLOPS时,是否还能稳定获得显著更强的模型? 若答案是否定的,说明瓶颈已至——而当前行业正处于这一阶段。
1. 算力吸收效率下降
过去,算力每增长10倍,模型能力往往能同步提升一个台阶(如GPT-2到GPT-3)。但现在,即便投入100倍算力,模型在核心预测能力上的提升也越来越微弱:
-
一方面,新增算力被大量通信、同步、系统开销抵消——当模型分布在数千、数万张GPU上时,GPU间的数据传输延迟会导致算力单元空闲,实际有效算力远低于理论值;
-
另一方面,现有架构(如Transformer)对算力的“消化能力”已达上限——MoE(混合专家模型)虽通过“激活部分专家”降低了单token计算成本,但多专家间的调度、通信成本,仍限制了算力的进一步利用。
2. “效率优化”≠“智能提升”
当前行业热议的量化、蒸馏、Mamba架构等“降本增效”技术,解决的是“同等智能下更便宜”的问题,而非“同等成本下更智能”的问题:
-
例如Mamba架构虽提升了吞吐量(单位时间处理更多token),但在“算力→预测能力”的转化效率上,并未超越Transformer;
-
即便投入300亿美元,若无法找到能更高效吸收算力的架构或训练目标,最终可能只是“用更多钱做了同样的事”,无法实现智能的维度级突破。
四、未来破局方向:从“堆算力”到“优化转化效率”
面对瓶颈,尤洋并未给出唯一答案,但提出了多个值得探索的方向,核心均指向“提升算力到智能的转化效率”:
1. 重构硬件与基础设施:平衡“计算/通信开销比”
当前多GPU集群的最大问题是“通信开销过高”。未来AI基础设施的核心目标,应是通过软硬件协同优化,提升“计算开销/通信开销”的比值——比如通过更高速的互联技术(如NVLink升级)、更合理的算力调度策略,减少数据传输延迟,让新增算力能真正用于计算,而非等待。
2. 突破架构与Loss函数:寻找更可扩展的范式
现有Transformer架构与Next-Token Prediction目标,已难以支撑更大规模的算力投入。未来需探索:
-
新架构:不仅要提升吞吐量,更要能在算力增长时,同步提升预测能力的上限,比如支持更复杂的因果推理、长期记忆;
-
新训练目标:摆脱对“历史文本token”的依赖,转向更贴近“预测未来”的目标,比如基于实时环境数据的动态决策训练。
3. 重新审视优化器与精度:回归“高精度计算”?
当前行业为降本,普遍采用FP16(半精度)甚至FP8(低精度)计算,且默认使用Adam优化器。但尤洋提出疑问:
-
低精度计算虽能提升速度,但可能丢失关键信息,导致模型无法学习到复杂的预测模式;
-
Adam优化器的“自适应学习率”虽稳定,但在超大规模算力下,是否会限制模型的探索能力?或许需要回归FP32/FP64(高精度)计算,或尝试更激进的高阶优化器。
4. 延长训练周期与超参数探索:挖掘预训练潜力
许多模型训练仅进行几轮epoch(遍历数据的次数)就停止,而尤洋认为,预训练能承载的智能增长空间可能远未用尽——通过更多epoch训练、更深度的超参数调优,或许能让现有架构在不增加算力的情况下,释放更多预测能力。
五、行业启示:告别“算力迷信”,回归智能本质
尤洋的长文,本质是对行业“堆算力”狂热的一次降温。其核心启示在于:
-
算力不是万能的:当技术范式无法消化算力时,再多投入也只是浪费,未来竞争的关键不是“拥有多少算力”,而是“算力转化为智能的效率有多高”;
-
警惕“效率优化”陷阱:降本增效很重要,但不能替代“智能提升”——行业需区分“用更少钱做同样的事”和“用同样的钱做更难的事”,后者才是突破瓶颈的关键;
-
重新聚焦用户价值:AI的终极目标是解决人类问题,而非刷新榜单分数。只有当模型能在医疗、教育、工业等真实场景中,稳定提供“可信赖的预测与决策”时,才算真正突破了增长瓶颈。
结语:智能的上限,取决于“组织计算的方式”
尤洋在文末并未断言AI增长已达天花板,而是给出了一个开放的结论:只要能找到更高效组织计算的方式,智能的上限就远未到来。
300亿美元难造更强GPT-4,不是因为算力不足,而是因为我们还没找到将算力转化为“预测能力”的新范式。未来的AI竞争,将从“比谁算力多”转向“比谁会用算力”——而那些能率先破解“算力-智能转化密码”的企业或研究者,将在下一轮行业格局中占据绝对先发优势。
正如尤洋所言:“AI的下一个十年,不再是‘堆料’的十年,而是‘精算’的十年。”