【量子位 2025年12月16日讯】国产AI在数据智能领域再添重磅成果。12月13日,第二届CCF中国数据大会上,蚂蚁数科正式宣布开源数据分析智能体核心技术——Agentar-SQL系列,涵盖全套论文、代码、模型及使用指南。这款曾以81.67%执行准确率、77%执行效率双料第一登顶全球权威NL2SQL评测基准BIRD-SQL的技术,不仅打破谷歌等国际巨头垄断,更在金融等核心场景验证了产业价值:某头部城商行试运营期间,其查询准确率超92%,较传统方案提升3倍以上,为企业数智化提供“非专业人员也能用自然语言查数据”的底层能力。
技术硬实力:从全球榜单登顶到产业场景验证
NL2SQL(自然语言转SQL)技术被视为“打通数据查询最后一公里”的关键,但长期受限于“理解模糊口语、注入行业知识、解析复杂表结构、生成无错SQL”四大痛点,多数方案停留在实验室阶段。而蚂蚁数科的Agentar-SQL系列,通过技术突破实现“榜单领先”与“产业可用”的双重验证。
1. 霸榜BIRD-SQL超两月,碾压国际巨头
作为全球公认“最难NL2SQL测试”,BIRD-SQL覆盖金融、电力、医疗等37个真实行业场景,包含33GB数据、超1万条高复杂度查询任务,要求模型生成的SQL能在生产级数据库稳定执行。2025年9月25日,蚂蚁数科Agentar-Scale-SQL以81.67%的测试集执行准确率,超越谷歌CHASE-SQL(76.02%)、亚马逊Q-SQL(76.47%)等竞品登顶,且执行效率同步位列第一,截至12月仍保持双榜领先,成为该榜单史上首个持续霸榜超两月的国产技术方案。
“BIRD-SQL的难点在于‘真实复杂性’,比如金融场景的多表嵌套查询,需要关联‘客户信息表’‘交易流水表’‘风控规则表’等,还得理解‘不良率’‘日均余额’等专业术语。”蚂蚁数科AI技术负责人章鹏解释,Agentar-SQL通过“多轮意图澄清+行业知识注入”突破这一难题——面对模糊表述(如“最近的大客户订单”),模型会主动追问“‘最近’是否指30天内?‘大客户’是否为年消费超100万客户”;针对不同行业,内置专属知识图谱,确保生成的SQL贴合业务逻辑。
2. 金融场景准确率破92%,解决“落地最后一公里”
实验室数据之外,Agentar-SQL在产业场景的表现更具说服力。在某头部城商行的试运营中,其展现出三大核心价值:
-
高准确率:涵盖客户画像分析、理财产品收益测算等10+核心场景,平均查询准确率超92%,错误率较传统人工写SQL或通用NL2SQL工具降低60%以上;
-
低门槛使用:客户经理无需掌握SQL语法,通过“查一下本季度信用卡不良率超1%的客户分布”这类口语化指令,即可生成精准查询结果,操作效率提升2倍;
-
复杂场景适配:支持10张以上表的关联查询,能自动识别数据库表间逻辑(如“贷款合同表”与“还款计划表”的关联字段),避免因表结构复杂导致的查询失败,这一能力在金融风控、零售库存分析等场景至关重要。
开源全布局:从Text-to-SQL到全链路数据能力
此次蚂蚁数科并非简单开源“单一模型”,而是规划了“分阶段、全链路”的开源路线,旨在降低行业开发门槛,推动数据智能体技术规模化落地。
1. 首期开源:开箱即用的Text-to-SQL框架
本次率先开源的“实时文本转SQL”框架,是Agentar-SQL系列的核心模块,具备两大特点:
-
零配置快速上手:开发者无需复杂调参,通过GitHub、ModelScope、Hugging Face等平台下载代码后,可直接对接企业现有数据库,支持MySQL、Oracle等主流数据库类型,适配零售、制造、金融等多行业数据格式;
-
效率优化显著:针对“长文本查询”“多条件筛选”等高频场景做了专项优化,例如处理“统计华东地区近3个月每周新注册用户中,购买过理财产品的人数占比”这类复杂指令,生成SQL的平均耗时从行业平均的8秒缩短至1.2秒。
2. 2026年规划:覆盖全链路数据能力
蚂蚁数科明确表示,2026年将陆续开源更多关键技术,构建“从意图理解到数据价值挖掘”的完整能力栈:
-
数据库理解与挖掘:自动解析数据库表结构、字段含义、数据关联关系,生成可视化数据字典,解决“新人看不懂数据库”的行业痛点;
-
行业知识挖掘:支持企业导入专属行业术语库(如金融的“LPR利率”、零售的“坪效”),让模型快速适配垂直领域需求;
-
实时多轮交互:强化模型“主动澄清”能力,当用户指令模糊时(如“查一下好客户的贷款情况”),自动追问关键信息,避免理解偏差。
产业价值重构:从“专业门槛高”到“人人能用数据”
当前中国商业智能市场正快速增长,2025年规模达12亿美元,预计2028年将增至17.9亿美元,年复合增长率12.7%。但多数企业的数据分析仍停留在“报表可视化、简单查询”阶段,核心原因是“专业数据分析人才稀缺”“普通员工不会写SQL”。蚂蚁数科的开源动作,正试图改变这一现状。
章鹏在大会上强调:“NL2SQL的终极目标不是‘生成SQL’,而是让数据能力下沉到每个业务人员。”以金融行业为例,过去银行理财经理要查询“某客户近半年的资产变动与产品持有情况”,需提交需求给数据工程师,等待1-2天才能拿到结果;如今通过Agentar-SQL,输入自然语言指令即可实时获取数据,响应速度提升超100倍。
更关键的是,蚂蚁数科还在构建“超越NL2SQL”的完整数据智能体能力栈。章鹏指出,产业可用的技术需具备四大能力:
-
在线扩展:像BIRD-SQL评测的那样,支持复杂查询的动态生成;
-
离线扩展:深度理解数据库结构,自动构建数据知识图谱;
-
人机交互:识别自身不确定性,主动与用户澄清意图,实现“白盒化协作”;
-
自我进化:通过记忆优化、工具复用等“免调优”技术,从错误中学习,减少对标注数据和专家的依赖。后续这些能力模块将逐步开源,如数据库理解工具Agentar Profiling-SQL、免调优模块Agentar TuningFree-SQL等。
生态影响:加速国产数据智能技术落地
此次开源不仅为开发者提供“开箱即用”的工具,更填补了国内“产业级NL2SQL开源方案”的空白。目前,Agentar-SQL的开源资源已在arXiv、GitHub等平台上线,吸引大量企业与高校关注——某零售企业技术负责人表示,基于该框架仅用2周就搭建起“运营人员自然语言查销售数据”的系统,开发周期较自主研发缩短80%;多所高校也计划将其纳入数据分析课程教学,培养“懂业务+会用AI查数据”的复合型人才。
从行业视角看,蚂蚁数科的动作也为国产AI树立了“技术突破+开源共享”的标杆。随着商业智能市场对“低门槛、高可靠数据工具”的需求激增,Agentar-SQL系列的开源,有望推动更多企业跳过“重复造轮子”阶段,直接聚焦业务创新,加速中国企业数智化转型进程。正如蚂蚁数科相关负责人所言:“我们希望通过开源,让每个企业都能低成本拥有‘数据分析数智员工’,让数据价值不再受限于专业门槛。”