国产AI打破国际垄断!蚂蚁数科开源霸榜SQL模型,金融级能力外溢至公交、能源领域

【量子位 2025年12月15日讯】在全球AI数据智能领域,国产力量再添重磅突破。12月14日,蚂蚁数科在第二届CCF中国数据大会上宣布,将霸榜全球权威SQL评测基准BIRD-Bench超两月的Agentar-SQL系列技术高调开源,涵盖文本转SQL(Text-to-SQL)全链路工具——从论文、代码到模型权重、使用指南一应俱全。这意味着,曾被谷歌、亚马逊等国际巨头垄断的“AI生成精准SQL”技术,如今国内企业与开发者可免费获取核心能力,更标志着中国产业AI从“技术突破”迈向“生态共享”新阶段。

从霸榜到开源:81.67%准确率碾压国际巨头,破解企业级SQL难题

提及AI生成SQL,全球从业者绕不开BIRD-Bench基准——这个包含95个大型数据库、33.4GB数据量、覆盖37个专业领域的评测体系,因贴近工业界“脏数据、复杂关联、外部知识依赖”等真实场景,被公认为“NL2SQL(自然语言转SQL)领域的世界杯”。而蚂蚁数科的Agentar-Scale-SQL,早在2025年9月就以81.67%执行准确率77%执行效率的双料第一成绩登顶,将谷歌CHASE-SQL(76.02%)、亚马逊Q-SQL(76.47%)等竞品甩在身后,成为该榜单史上首个登顶的国产模型。

“这个成绩不是靠‘刷榜技巧’,而是解决了企业级落地的核心痛点。”蚂蚁数科数据智能负责人在大会上解释,传统Text2SQL技术面临四大“死穴”:看不懂模糊口语(如“最近三个月的大客户订单”)、装不下行业知识(如金融领域“不良率”的特殊定义)、理不清复杂表关联(多表嵌套查询易出错)、生不出无bug SQL(语法正确但语义错误的“幻觉SQL”频发)。而Agentar-SQL通过“系统化工程方案”逐个突破:

  • 多轮意图澄清:面对模糊表述,模型会主动追问“‘最近三个月’是否包含本月?‘大客户’是否指年消费超100万客户?”,避免理解偏差;

  • 行业知识注入:针对金融、零售等领域,内置专属知识图谱,例如生成银行SQL时,自动关联“存款准备金率”“LPR利率”等专业指标的计算逻辑;

  • 动态表结构解析:通过AI自动识别数据库表间关联关系,即使面对10张以上的复杂表连接,也能生成正确的JOIN逻辑;

  • 多版本校验:同时生成3-5版SQL候选,通过“执行结果对比+语法逻辑检查”筛选最优解,某头部城商行试运营数据显示,其查询准确率超92%,是传统方案的3倍以上。

从金融深水区到产业广域:中国AI走出“最难场景突破”路径

不同于多数AI企业从“通用场景”切入,蚂蚁数科的AI之路始于“最难啃的骨头”——金融领域。“这里没有‘差不多’,只有‘百分百正确’,一个错误SQL可能导致千万级资金误判。”蚂蚁数科CEO赵闻飙在大会上直言,金融场景的“三高特性”(高敏感数据、高严谨逻辑、高合规要求),倒逼技术必须做到“可解释、可审计、可回溯”。

如今,这套在金融领域打磨成熟的技术,已成为中国金融体系的“隐形基建”:

  • 覆盖全行业金融机构:服务100%国有股份制银行、超60%地方性商业银行,从工商银行的智能风控系统到宁波银行的投资咨询平台,背后都有Agentar-SQL的支撑;

  • 实现“黑箱白化”:在上海银行AI手机银行中,用户用自然语言查询“我的养老金明细”,系统不仅生成SQL,还会同步显示“查询逻辑:从‘养老金账户表’关联‘交易流水表’,筛选‘交易类型=养老金发放’的记录”,满足监管对“可解释性”的要求;

  • 效率指数级提升:宁波银行客户经理此前处理一个复杂投资咨询,需在5个系统间切换、耗时2小时,如今通过AI系统10秒内获取精准数据,响应速度提升720倍。

更值得关注的是,金融级能力正加速外溢到民生与产业领域:

  • 公交智能调度:与南京公交合作的“小蓝鲸”智能体,用Text2SQL技术分析客流数据,已建议开通30余条新线路、新增84个招呼站,其中210路公交单日最高客流达2168人次,老年卡使用占比近50%,填补区域交通空白;

  • 能源投资决策:EnergyTS能源电力时序大模型结合SQL生成能力,将协鑫能科等企业的投资测算时间从2-3天缩短至10分钟,效率提升超60倍,助力新能源项目快速落地。

从技术独占到生态共享:开源+按效果付费,降低产业AI门槛

此次开源,蚂蚁数科不仅释放Agentar-SQL的文本转SQL核心能力,还承诺后续陆续开源数据库理解、行业知识挖掘、多轮交互等工具,形成“全链路技术栈”。“我们希望让中小机构也能用得起顶尖Text2SQL技术,不用再为‘建团队、买模型’投入百万级成本。”蚂蚁数科开源负责人表示,开发者可通过GitHub获取全套资源,快速搭建适配自身业务的Text2SQL系统。

更颠覆的是,蚂蚁数科还推出“按效果付费”模式——客户无需预付项目费或订阅费,而是按“生成正确SQL的条数”或“业务价值提升量”付费。例如某连锁零售企业,仅需为“通过AI SQL节省的人工查询工时”买单,大幅降低试错成本。这种模式背后,是蚂蚁数科对技术的自信:截至2025年,其已与300家合作伙伴共建生态,服务超1.3万家终端客户,海外市场也已覆盖南洋商业银行、渣打银行等超百家机构,并入选香港金管局生成式AI沙盒项目。

“产业AI的价值,不在于实验室里的榜单分数,而在于能否帮企业解决实际问题。”赵闻飙在大会结尾强调。随着Agentar-SQL的开源,中国AI正从“单点技术突破”走向“生态协同创新”,而这套从金融深水区走出的“务实方法论”,或许将成为全球产业AI落地的“中国样本”。目前,Agentar-SQL的开源仓库已在GitHub上线,首批开发者反馈显示,基于该框架搭建的Text2SQL系统,平均开发周期从3个月缩短至2周,进一步验证了其产业价值。

© 版权声明

相关文章