砸钱治AI乱象!Laude投千万资助15个硬核项目,剑指Meta式“糟粕化”困局

# 砸钱治 AI 乱象!Laude 投千万资助 15 个硬核项目,剑指 Meta 式 “糟粕化” 困局

在 Meta 因 AI 短视频 “同质化”“版权模糊” 等问题被贴上 “AI 糟粕” 标签的同一天,AI 研究界迎来了一场针对性的 “拨乱反正”。11 月 6 日,TechCrunch 独家报道,由 Databricks 与 Perplexity 联合创始人安迪・康温斯基发起的 Laude 研究所,正式宣布首批 “弹弓”(Slingshots)AI 资助计划获奖名单,15 个聚焦 AI 评估体系的创新项目将获得资金、算力与技术支持。这场背靠 1 亿美元基金、由谷歌杰夫・迪恩等大佬坐镇的资助行动,直指当前 AI 行业 “重应用扩张、轻基础验证” 的核心痛点,试图用可量化的评估标准,为 Meta 们深陷的发展迷局提供破局思路。

解码 “弹弓计划”:不是给钱那么简单

Laude 研究所的 “弹弓计划” 绝非传统意义上的科研拨款,而是一套精准对接 “研究痛点” 的加速器体系。作为 Laude 双轨资助模式(“弹弓” 扶早期研究、“登月” 攻人类级难题)的核心组成,该计划专门瞄准那些 “有潜力落地但缺资源推进” 的基础研究,提供学术机构难以匹配的 “三维支持”:

  • 资金支持:单笔资助覆盖从原型开发到初步落地的全周期成本,虽未披露具体金额,但参考其为伯克利 AI 实验室每年 300 万美元的拨款规模,单个项目资助或达百万级别;

  • 算力兜底:依托 Databricks 的云端基础设施,为需要大规模模型训练的项目提供免费算力,解决学术研究 “卡脖子” 的硬件难题;

  • 技术陪跑:配备来自 Meta、谷歌的工程团队提供落地指导,确保研究成果能转化为开源工具、初创公司等可复用的实体。

作为交换,获奖项目需承诺产出 “可验证的成果”—— 这与当前部分企业 “用概念套取融资” 的做法形成鲜明对比。Laude 研究所董事会主席、图灵奖得主戴夫・帕特森直言:“我们要的不是论文里的漂亮数据,而是能让整个行业少走弯路的实用工具。”

15 个获奖项目:直击 AI 评估三大痛点

首批入选的 15 个项目精准聚焦 AI 行业最棘手的 “评估难题”,而这正是 Meta 等企业陷入 “糟粕化” 争议的核心症结 —— 缺乏客观标准导致产品质量失控。这些项目大致可分为三类,每一类都对应着行业的真实病灶。

1. 代码能力 “照妖镜”:终结 “纸面算力”

针对 AI 编程工具 “看似能用实则漏洞百出” 的问题,多个项目给出了新解法。加州理工与德州大学联合开发的Formula Code,首创 “动态优化评分体系”,不仅评估 AI 生成代码的正确性,更追踪其对现有系统的性能提升率,彻底杜绝 “为跑分而生的表面功夫”。

更具突破性的是 SWE-Bench 联合创始人 John Boda Yang 领衔的CodeClash,借鉴竞技体育模式设计 “代码对抗赛” 框架:让不同 AI 同时优化同一复杂工程,通过 Bug 修复率、运行效率、可读性等多维度实时评分,最终生成动态排名榜单。“现在的基准测试太容易被‘刷题’,我们要让评估像世界杯一样真实”,Yang 在接受 TechCrunch 采访时强调。

2. 白领 AI “考核表”:破解 “能力虚标”

随着 AI 办公助手普及,“功能宣传与实际表现脱节” 的问题愈发突出。哥伦比亚大学的BizBench项目为此打造了首个 “白领智能体综合评估体系”,涵盖数据分析、报告撰写、会议纪要等 12 类高频工作场景,甚至加入 “跨部门沟通话术优化” 等软技能考核。测试显示,某宣称 “能替代初级分析师” 的 AI 工具,在 BizBench 中仅完成 37% 的任务目标。

而斯坦福主导的Terminal Bench已完成初步落地,这款命令行编程基准测试工具能模拟真实工作环境中的系统操作,Anthropic 等企业已将其纳入 AI 产品出厂检测标准,有效避免 “演示时流畅、实际用卡顿” 的尴尬。

3. 通用智能 “度量衡”:告别 “单点跑分”

长期关注 AGI(通用人工智能)的ARC-AGI 最新版本也在资助名单中,该项目摒弃了传统 “单一任务测试” 模式,设计 “跨领域能力迁移考核”—— 让 AI 先解决数学推理问题,再用相似逻辑处理生物实验设计,以此评估其底层认知能力。项目负责人透露,目前顶尖大模型的跨领域迁移成功率仍不足 20%,这与 “通用智能” 的目标相去甚远。

此外,还有项目探索强化学习的 “鲁棒性评估”、模型压缩的 “质量损失测算” 等基础课题,试图为 AI 技术搭建全链条的 “质量监控网”。

背后大佬天团:要做 AI 界的 “监察院”

“弹弓计划” 的底气,来自 Laude 研究所堪称 “梦幻” 的核心团队。创始人安迪・康温斯基本身就是 AI 圈 “双料赢家”—— 创立的 Databricks 估值 620 亿美元,参投的 Perplexity 估值达 140 亿美元,个人出资 1 亿美元成立 Laude,确保资助的独立性。

董事会更是星光熠熠:谷歌首席科学家杰夫・迪恩、Meta AI 研究副总裁 Joelle Pineau、伯克利教授戴夫・帕特森,几乎涵盖全球顶尖科技公司与学术机构的核心力量。这种 “产学研全覆盖” 的配置,旨在避免评估标准被单一企业主导。

更关键的是其 “非营利 + 公益企业” 的双轨架构:非营利部分负责资助决策与标准制定,确保学术中立;公益企业板块推动成果落地,通过开源授权、技术转让等方式回收成本,形成可持续循环。康温斯基在博客中直言:“我们要对抗‘商业利益绑架研究’的趋势,让 AI 评估回归客观本质”。

剑指行业乱象:给 Meta 们开 “药方”

Laude 的出手,恰是对当前 AI 行业乱象的精准 “对症下药”。以 Meta 的 Vibes 短视频为例,其陷入 “同质化”“版权模糊” 争议的核心原因,正是缺乏成熟的 AI 内容评估体系 —— 既没有衡量 “原创性” 的量化标准,也没有检测 “版权合规性” 的自动化工具,最终导致产品在流量导向下走向 “糟粕化”。

而 “弹弓计划” 资助的项目,正能填补这些空白:CodeClash 的 “原创性评分” 可识别 AI 内容的模板化程度,BizBench 的 “版权溯源模块” 能自动检测训练数据中的侵权元素,Terminal Bench 的 “实时监控” 可防范内容质量下滑。业内人士分析,若这些工具普及,Meta 们的产品开发将有明确的 “质量红线”,无需再在 “流量与合规” 间反复摇摆。

更深远的影响在于重构行业规则。目前 AI 领域的评估标准多由科技巨头自行制定,如 Salesforce 推出 CRM 专用 LLM 基准测试,存在明显的 “自卖自夸” 嫌疑。Laude 则试图打造独立第三方评估生态,其资助的开源工具向全行业免费开放,任何企业都可用于自我检测,这将彻底打破 “一家独大定标准” 的格局。

挑战与期待:能治好 AI 的 “浮夸病” 吗?

尽管初心美好,但 Laude 的 “弹弓计划” 仍面临三重考验。首先是 “标准落地难”—— 部分评估工具需企业开放核心数据配合测试,这可能遭遇商业机密保护的阻力;其次是 “迭代速度跟不上”,AI 技术日新月异,评估标准需持续更新才能保持有效性;最后是 “利益博弈激烈”,触动既得利益者的蛋糕可能引发暗中抵制。

不过乐观信号已然显现:除 Anthropic 外,谷歌 DeepMind 也已表示将试用首批资助项目的评估工具,多家初创企业主动申请加入测试。康温斯基透露,“弹弓计划” 每年将更新资助方向,下一批可能聚焦 AI 伦理与偏见检测,形成覆盖技术、商业、社会的全方位评估体系。

结语:AI 需要 “油门” 更需要 “刹车”

当 Meta 们忙着踩油门抢占 AI 应用风口时,Laude 研究所的 “弹弓计划” 正在默默打造关键的 “刹车系统”。这场千万级资助行动的意义,不仅在于产出几个评估工具,更在于重建行业对 “质量” 的敬畏 —— 正如汽车工业需要碰撞测试、食品行业需要安全标准,AI 行业同样离不开客观、独立的评估体系。

Meta 的 Vibes 短视频遭遇差评,本质上是 “无标准狂奔” 的必然结果;而 Laude 的探索,正是为了让 AI 发展既要有速度,更要有底线。未来,当 CodeClash 的代码评分、BizBench 的能力考核成为行业标配,或许 “AI 糟粕” 将彻底成为历史,技术创新也能在规范中走得更远。

目前,首批资助项目已进入落地阶段,部分工具预计 2026 年第一季度开放公测。这场由大佬天团发起的 “AI 质量革命”,能否治好行业的 “浮夸病”,值得所有从业者期待。

© 版权声明

相关文章