Kimi革新注意力机制引硅谷热议 17岁少年携手技术大神创突破

AI 资讯2小时前发布 dennis
0

当大模型架构创新聚焦于参数规模与训练效率的比拼时,月之暗面 Kimi 团队跳出固有框架,推出全新的 Attention Residuals 技术,将注意力机制 “旋转 90 度” 应用于深度维度的残差连接,一举破解传统大模型的训练瓶颈。这项技术不仅让马斯克连发赞叹、Karpathy 深度思考,更因 17 岁高中生陈广宇跻身共同一作,成为 AI 圈热议的焦点,为大模型架构创新开辟了全新路径。

此次 Kimi 发布的 Attention Residuals 技术,灵感源于 Ilya 关于 “LSTM 是旋转 90 度的 ResNet” 的设想。Kimi 团队发现,既然时间维度的 LSTM 可对应深度维度的残差网络,那淘汰了 LSTM 的注意力机制,也能在深度维度实现创新应用。这一技术核心是让模型在计算当前层时,能像处理序列时间维度那样 “选择性回忆”,以当前层可学习伪查询向量为 query,前层输出为 key 和 value,通过注意力机制加权聚合前层信息,彻底改变了传统残差连接无差别等权累加的模式。

传统残差连接在 PreNorm 范式下,所有层的信息贡献均等累加,既导致早期信息被稀释、难以检索的 “PreNorm dilution problem”,又因隐藏状态范数随深度无限增长引发训练不稳定。而 Attention Residuals 让模型自主判断前层信息的重要性,对关键信息赋予高权重,无关信息自然降低权重,从根源上解决了传统架构的 “记忆负担”。为避免全量注意力计算带来的 O (L²) 复杂度爆炸,团队还设计了 Block AttnRes 分块压缩方案,将网络分层打包并压缩为 “摘要向量”,把复杂度降至 O (L・B),再配合缓存式流水线通信等工程优化,让技术落地成为可能。

在 Kimi Linear 48B 大模型(3B 激活参数 MoE 架构)上的实测,让 Attention Residuals 的实力得到充分验证。同等计算预算下,该技术能实现更好的下游任务性能,达到相同性能所需训练计算量减少 20%,相当于训练效率提升 25%,而推理延迟增加不到 2%。在数学推理、代码生成、多语言理解等核心任务中,MMLU、GSM8K、HumanEval 等数据集的表现均实现持平或显著提升,其中 GPQA-Diamond 得分从 36.9 跃升至 44.4,中文任务 C-Eval 也从 79.6 提升至 82.9。更重要的是,该技术是 “即插即用” 的替代方案,无需修改网络其他部分,直接替换残差连接即可部署,大幅降低了落地门槛。

这项技术突破一经发布,便引发全球 AI 领域的高度关注。马斯克在社交平台直言 “Kimi 的作品令人印象深刻”,OpenAI 前联合创始人 Karpathy 则感慨,行业对 Transformer 开山之作《Attention is All You Need》的理解仍不够深入,该技术让人们重新思考注意力机制的应用边界,就连 OpenAI 前研究副总裁 Jerry Tworek 也评价,这一突破标志着 “深度学习 2.0” 的到来。而让业界更为惊叹的是,这篇重磅论文的共同一作中,竟有一位年仅 17 岁的高中生陈广宇,与 RoPE 旋转位置编码提出者苏剑林、Kimi Linear 第一作者张宇并肩而立。

陈广宇的科研之路,并非传统意义上的 “天才开挂”,而是一场从兴趣到能力的深耕之旅。一年前他还不知 Transformer 为何物,从北京中学生黑客松的 “第三只机械辅助手” 项目起步,在创业导师指导下转向 AI 底层技术研究。他以 Gemini 为辅助,研读经典论文、追踪开源项目,凭借对技术的极致探索,获得硅谷 AI 初创公司的实习机会,参与过 144 张 H100 显卡的探索性项目,还与顶级投资者交流融资策略。去年 11 月,因被 Kimi 的 Flash Linear Attention 技术吸引,他加入月之暗面,从读论文、研究 Triton kernel 起步,逐步深入大模型最底层的架构创新,最终成为 Attention Residuals 技术的核心贡献者之一。

如今,陈广宇的研究成果不仅让他一战成名,更吸引了 a16z 创始人 Marc Andreessen 等硅谷大佬的关注。而 Kimi 团队的这次创新,更让行业看到了大模型架构创新的全新可能 —— 从 “时间 – 深度对偶性” 出发,重新思考注意力机制与残差连接的融合。相较于单纯追求参数规模的 “暴力创新”,这种从底层逻辑出发的巧思,为大模型的训练效率提升、架构轻量化发展提供了新方向。

Attention Residuals 的发布,不仅是 Kimi 团队在大模型架构创新上的重要突破,更印证了 AI 领域创新的多元性:既需要资深技术大神的深厚积淀,也需要年轻一代的大胆探索。而 17 岁少年跻身顶级技术研究的经历,也让更多人看到,在 AI 技术快速发展的当下,兴趣与坚持才是突破技术边界的核心动力。未来,随着这一技术的落地与迭代,或将推动大模型向更高效、更稳定的方向发展,为 AI 产业的规模化应用注入全新活力。

© 版权声明

相关文章