谷歌反击OpenAI：Gemini Deep Research智能体刷新多测试纪录，Interactions API统一开发者生态

0 0

【量子位 2025年12月13日讯】在OpenAI发布GPT-5.2掀起AI模型竞争热潮后，谷歌迅速亮出“智能体+生态”组合拳。12月12日，谷歌正式推出增强版Gemini Deep Research智能体，基于Gemini 3 Pro打造，在深度搜索、多步推理等复杂任务中大幅降低幻觉，刷新多项测试SOTA（当前最优）成绩；同时配套发布Interactions API，为开发者提供与模型、智能体交互的统一接口，进一步完善Gemini生态布局。这一系列动作，不仅是对OpenAI的直接回应，更凸显谷歌在“智能体实用化”与“开发者服务”领域的双重野心。

Gemini Deep Research：迭代式推理破局复杂研究，多测试碾压竞品

作为谷歌首款聚焦深度研究场景的智能体，Gemini Deep Research的核心突破在于“从‘被动检索’到‘主动探索’”的能力升级，其迭代式推理机制彻底改变了AI处理复杂信息的模式：

循环式搜索补全知识空白：不同于传统AI“一次查询即输出结果”的模式，该智能体可自主完成“提出需求→抓取信息→识别空白→二次搜索→整合结论”的闭环。例如在分析“21世纪美国能源主导地位的地缘影响”时，它会先检索美国页岩革命相关数据，发现“德国去工业化与能源依赖的关联”信息不足后，自动补充搜索德国能源政策、工业产值变化等资料，最终形成包含经济分化、地缘杠杆等维度的完整分析框架，输出内容被开发者用于生成大学级论文，关键论点均附带权威数据支撑。
多测试刷新SOTA，幻觉率显著降低：官方测试数据显示，Gemini Deep Research在三大核心基准中表现突出：
Humanity’s Last Exam（HLE，人类终极测试）：得分46.4%，远超Gemini 3 Pro的43.2%、GPT-5 Pro的38.9%，在需要跨领域知识融合的任务中优势明显；
BrowseComp（综合网页研究）：以66.1%的正确率位列第一，比GPT-5 Pro高出0.9个百分点，尤其擅长定位“隐藏在多网页中的零散事实”，如某企业年报中未直接标注的研发投入占比；
DeepSearchQA（深度搜索问答）：由Kaggle独立评测，该智能体完全正确率达66.1%，幻觉率仅10%，而GPT-5 Pro完全正确率为65.2%，幻觉率14.1%。谷歌同时开源DeepSearchQA测试集，包含17个领域的900个因果链任务，要求生成详尽答案集合，比传统事实检索更能衡量智能体的综合能力。
多产品落地在即，覆盖高频场景：谷歌透露，Gemini Deep Research将快速集成到旗下核心产品中：谷歌搜索将新增“深度研究模式”，用户查询复杂议题（如“全球气候变化对粮食安全的影响”）时，智能体可生成带引用来源的分析报告；NotebookLM（谷歌AI笔记工具）将借助其能力自动补全文献综述、验证数据准确性；Google Finance则会用其分析行业趋势、预测企业营收，为投资者提供深度洞察。

Interactions API：统一接口破解开发痛点，适配复杂智能体场景

伴随智能体能力升级，谷歌同步推出Interactions API，解决了此前开发者与Gemini系列模型交互的“碎片化”问题，为复杂智能体应用落地扫清障碍：

告别“多接口切换”，统一模型与智能体交互：此前开发者需通过不同接口调用Gemini模型（generateContent API）与第三方工具，面对多步骤推理、长程任务时易出现上下文断裂。而Interactions API提供统一RESTful端点，通过指定“model”或“agent”参数，即可无缝对接Gemini 3 Pro、Gemini Deep Research等资源，支持工具调用、多轮对话、状态保存等复杂操作。例如开发者搭建“市场调研智能体”时，无需分别对接搜索工具、数据处理模型，通过API即可让智能体自主完成“搜索行业数据→调用分析工具→生成可视化报告”全流程。
四大核心特性适配企业级需求：该API在功能上做了针对性优化，大幅提升开发效率：
服务器端状态可选：支持将任务上下文存储在谷歌服务器，避免客户端频繁传输数据，尤其适合需数小时甚至数天完成的长程任务（如学术论文撰写）；
可解释数据模型：输出结果包含“推理步骤+信息来源”，开发者可追溯智能体的决策逻辑，便于调试与合规审查；
后台执行：任务可在后台异步运行，开发者无需等待即可处理其他请求，提升应用响应速度；
远程MCP工具支持：兼容谷歌Cloud服务（如Maps、BigQuery）及第三方工具，智能体可直接调用外部资源，例如电商应用中的“AI客服智能体”，通过API即可联动物流系统查询包裹状态。
开发者反馈积极，生态效应初显：API发布后，已有开发者基于其快速搭建应用，某教育科技公司用Interactions API整合Gemini Deep Research，开发出“论文辅助工具”，支持学生输入主题后自动生成提纲、检索参考文献；还有开发者评价“该API让智能体开发从‘搭积木’变成‘拼乐高’，大幅降低复杂应用的落地门槛”。

生态对决升温：谷歌押注“智能体实用化”，OpenAI面临双重压力

谷歌此次发布的“智能体+API”组合，本质是对AI竞争赛道的“战略聚焦”——相较于OpenAI侧重“模型性能突破”，谷歌更倾向于通过“场景化智能体+开发者生态”构建壁垒：

场景落地优先，抢占企业级市场：Gemini Deep Research瞄准学术研究、市场分析、政策解读等高价值场景，直接解决“AI生成内容不可靠、需人工反复验证”的痛点，这与企业对“高精度、可追溯”的需求高度契合。例如金融机构可利用其分析行业政策影响，减少因信息不全导致的决策失误；科研团队能借助其加速文献综述，节省大量检索时间。
开发者生态再补短板，缩小与OpenAI差距：此前OpenAI凭借丰富的API功能、完善的文档支持，吸引大量开发者入驻；而谷歌此次推出的Interactions API，不仅统一了交互接口，还提供详细的开发指南、预置工具模板，进一步降低开发者使用门槛。未来随着该API与谷歌Cloud、搜索等产品的深度整合，Gemini生态的“工具调用能力”与“场景覆盖广度”将持续提升。

不过，谷歌仍需面对挑战：一方面，Gemini Deep Research目前仅支持英文场景，中文等多语言适配尚未提上日程，可能限制其在全球市场的推广；另一方面，OpenAI已与迪士尼达成IP合作，在C端内容创作场景形成优势，谷歌需在“智能体娱乐化”或“垂直领域深度绑定”上进一步发力，才能实现全面竞争。

随着Gemini Deep Research的落地与Interactions API的推广，AI行业的竞争已从“单一模型性能比拼”，升级为“智能体场景落地+生态服务能力”的综合较量。对用户而言，这意味着更可靠的AI研究助手、更丰富的智能应用；对开发者而言，两大巨头的生态布局将提供更多工具选择，推动AI技术加速融入各行各业。接下来，OpenAI是否会针对智能体场景推出新功能，谷歌又将如何拓展多语言与多模态能力，将成为行业关注的焦点。

# AI 资讯