谷歌反击OpenAI:Gemini Deep Research智能体刷新多测试纪录,Interactions API统一开发者生态

AI 资讯1个月前发布 dennis
0

【量子位 2025年12月13日讯】在OpenAI发布GPT-5.2掀起AI模型竞争热潮后,谷歌迅速亮出“智能体+生态”组合拳。12月12日,谷歌正式推出增强版Gemini Deep Research智能体,基于Gemini 3 Pro打造,在深度搜索、多步推理等复杂任务中大幅降低幻觉,刷新多项测试SOTA(当前最优)成绩;同时配套发布Interactions API,为开发者提供与模型、智能体交互的统一接口,进一步完善Gemini生态布局。这一系列动作,不仅是对OpenAI的直接回应,更凸显谷歌在“智能体实用化”与“开发者服务”领域的双重野心。

Gemini Deep Research:迭代式推理破局复杂研究,多测试碾压竞品

作为谷歌首款聚焦深度研究场景的智能体,Gemini Deep Research的核心突破在于“从‘被动检索’到‘主动探索’”的能力升级,其迭代式推理机制彻底改变了AI处理复杂信息的模式:

  • 循环式搜索补全知识空白:不同于传统AI“一次查询即输出结果”的模式,该智能体可自主完成“提出需求→抓取信息→识别空白→二次搜索→整合结论”的闭环。例如在分析“21世纪美国能源主导地位的地缘影响”时,它会先检索美国页岩革命相关数据,发现“德国去工业化与能源依赖的关联”信息不足后,自动补充搜索德国能源政策、工业产值变化等资料,最终形成包含经济分化、地缘杠杆等维度的完整分析框架,输出内容被开发者用于生成大学级论文,关键论点均附带权威数据支撑。

  • 多测试刷新SOTA,幻觉率显著降低:官方测试数据显示,Gemini Deep Research在三大核心基准中表现突出:

  • Humanity’s Last Exam(HLE,人类终极测试):得分46.4%,远超Gemini 3 Pro的43.2%、GPT-5 Pro的38.9%,在需要跨领域知识融合的任务中优势明显;

  • BrowseComp(综合网页研究):以66.1%的正确率位列第一,比GPT-5 Pro高出0.9个百分点,尤其擅长定位“隐藏在多网页中的零散事实”,如某企业年报中未直接标注的研发投入占比;

  • DeepSearchQA(深度搜索问答):由Kaggle独立评测,该智能体完全正确率达66.1%,幻觉率仅10%,而GPT-5 Pro完全正确率为65.2%,幻觉率14.1%。谷歌同时开源DeepSearchQA测试集,包含17个领域的900个因果链任务,要求生成详尽答案集合,比传统事实检索更能衡量智能体的综合能力。

  • 多产品落地在即,覆盖高频场景:谷歌透露,Gemini Deep Research将快速集成到旗下核心产品中:谷歌搜索将新增“深度研究模式”,用户查询复杂议题(如“全球气候变化对粮食安全的影响”)时,智能体可生成带引用来源的分析报告;NotebookLM(谷歌AI笔记工具)将借助其能力自动补全文献综述、验证数据准确性;Google Finance则会用其分析行业趋势、预测企业营收,为投资者提供深度洞察。

Interactions API:统一接口破解开发痛点,适配复杂智能体场景

伴随智能体能力升级,谷歌同步推出Interactions API,解决了此前开发者与Gemini系列模型交互的“碎片化”问题,为复杂智能体应用落地扫清障碍:

  • 告别“多接口切换”,统一模型与智能体交互:此前开发者需通过不同接口调用Gemini模型(generateContent API)与第三方工具,面对多步骤推理、长程任务时易出现上下文断裂。而Interactions API提供统一RESTful端点,通过指定“model”或“agent”参数,即可无缝对接Gemini 3 Pro、Gemini Deep Research等资源,支持工具调用、多轮对话、状态保存等复杂操作。例如开发者搭建“市场调研智能体”时,无需分别对接搜索工具、数据处理模型,通过API即可让智能体自主完成“搜索行业数据→调用分析工具→生成可视化报告”全流程。

  • 四大核心特性适配企业级需求:该API在功能上做了针对性优化,大幅提升开发效率:

  • 服务器端状态可选:支持将任务上下文存储在谷歌服务器,避免客户端频繁传输数据,尤其适合需数小时甚至数天完成的长程任务(如学术论文撰写);

  • 可解释数据模型:输出结果包含“推理步骤+信息来源”,开发者可追溯智能体的决策逻辑,便于调试与合规审查;

  • 后台执行:任务可在后台异步运行,开发者无需等待即可处理其他请求,提升应用响应速度;

  • 远程MCP工具支持:兼容谷歌Cloud服务(如Maps、BigQuery)及第三方工具,智能体可直接调用外部资源,例如电商应用中的“AI客服智能体”,通过API即可联动物流系统查询包裹状态。

  • 开发者反馈积极,生态效应初显:API发布后,已有开发者基于其快速搭建应用,某教育科技公司用Interactions API整合Gemini Deep Research,开发出“论文辅助工具”,支持学生输入主题后自动生成提纲、检索参考文献;还有开发者评价“该API让智能体开发从‘搭积木’变成‘拼乐高’,大幅降低复杂应用的落地门槛”。

生态对决升温:谷歌押注“智能体实用化”,OpenAI面临双重压力

谷歌此次发布的“智能体+API”组合,本质是对AI竞争赛道的“战略聚焦”——相较于OpenAI侧重“模型性能突破”,谷歌更倾向于通过“场景化智能体+开发者生态”构建壁垒:

  • 场景落地优先,抢占企业级市场:Gemini Deep Research瞄准学术研究、市场分析、政策解读等高价值场景,直接解决“AI生成内容不可靠、需人工反复验证”的痛点,这与企业对“高精度、可追溯”的需求高度契合。例如金融机构可利用其分析行业政策影响,减少因信息不全导致的决策失误;科研团队能借助其加速文献综述,节省大量检索时间。

  • 开发者生态再补短板,缩小与OpenAI差距:此前OpenAI凭借丰富的API功能、完善的文档支持,吸引大量开发者入驻;而谷歌此次推出的Interactions API,不仅统一了交互接口,还提供详细的开发指南、预置工具模板,进一步降低开发者使用门槛。未来随着该API与谷歌Cloud、搜索等产品的深度整合,Gemini生态的“工具调用能力”与“场景覆盖广度”将持续提升。

不过,谷歌仍需面对挑战:一方面,Gemini Deep Research目前仅支持英文场景,中文等多语言适配尚未提上日程,可能限制其在全球市场的推广;另一方面,OpenAI已与迪士尼达成IP合作,在C端内容创作场景形成优势,谷歌需在“智能体娱乐化”或“垂直领域深度绑定”上进一步发力,才能实现全面竞争。

随着Gemini Deep Research的落地与Interactions API的推广,AI行业的竞争已从“单一模型性能比拼”,升级为“智能体场景落地+生态服务能力”的综合较量。对用户而言,这意味着更可靠的AI研究助手、更丰富的智能应用;对开发者而言,两大巨头的生态布局将提供更多工具选择,推动AI技术加速融入各行各业。接下来,OpenAI是否会针对智能体场景推出新功能,谷歌又将如何拓展多语言与多模态能力,将成为行业关注的焦点。

© 版权声明

相关文章