陈天桥携代季峰颠覆大模型赛道:MiroThinker 1.5以30B参数破局,1_20成本碾压万亿参数模型

【量子位 2026年1月6日讯】当整个AI行业还在为“万亿参数模型”狂热时,前首富陈天桥与清华AI学者代季峰联手抛出“反卷”利器——1月5日,二人领衔的MiroMind团队正式发布搜索智能体模型MiroThinker 1.5。这款仅含30B/235B参数的模型,不仅在BrowseComp(网页检索基准测试)中以69.8分刷新ChatGPT-Agent保持的纪录,更以单条调用成本0.07美元(仅为1T参数模型Kimi-K2-Thinking的1/20)、推理速度提升3倍的优势,彻底打破“参数越大越强大”的行业迷信,为大模型发展开辟“交互驱动智能”的新路径。

据悉,MiroThinker 1.5已同步开源模型权重与代码,支持个人开发者通过Hugging Face或GitHub快速部署,上线首日体验入口(https://dr.miromind.ai/)访问量突破50万次,全球150余个国家的开发者参与测试。

一、性能颠覆:小参数硬刚全球顶尖模型,四项基准测试跻身第一梯队

MiroThinker 1.5的“杀伤力”,首先体现在与国际顶尖模型的直接对决中。在HLE-Text(人类终极测试)、BrowseComp等四项权威基准测试中,其235B版本交出亮眼成绩单,尤其在中文场景与网页检索任务中展现绝对优势:

测试项目 MiroThinker 1.5(235B) GPT-5-High Gemini-3-Pro 行业平均水平
HLE-Text 39.2% 41.7% 45.8% 35%
BrowseComp 69.8% 54.9% 37.8% 48%
BrowseComp-ZH(中文) 71.5% 63.0% 51.6% 55%
GAIA-Val-165 80.8% 76.7% 74.8% 68%

更令人惊叹的是参数与性能的“倒挂”:30B版本的MiroThinker 1.5,在BrowseComp-ZH测试中以66.8分超越1T参数的Kimi-K2-Thinking(62.3分),实现“用1/30参数跑赢30倍规模模型”的突破。在实时性测试中,该模型处理“2026世界杯胜率预测”“GTA 6发售时间分析”等复杂任务时,从信息检索到输出结论仅需2分钟,推理速度较Kimi-K2-Thinking快2.8倍。

二、技术破局:放弃“堆参数”,靠“交互智能”重塑推理逻辑

MiroThinker 1.5的逆袭,核心在于摒弃传统大模型“死记硬背”的路径,转而构建“主动求证、多轮修正”的交互型推理体系,这也是陈天桥团队提出的“发现式智能”理念的首次落地:

1. Interactive Scaling:把“外部交互”内化为训练机制

不同于传统模型依赖内部参数扩张知识储备,MiroThinker 1.5将“与外部世界的交互”作为核心能力。训练阶段,模型被要求将每个关键判断拆解为可验证的子假设,通过主动调用搜索工具、比对信源、修正矛盾,形成“假设-查证-修正”的闭环。例如分析A股连板股时,模型会先检索当日指数数据、板块热度、个股公告,发现“再升科技实控人减持”的风险信息后,重新调整其晋级概率评估,而非依赖历史数据盲目判断。

这种机制让模型摆脱“知识过时”的困境——即使面对2026世界杯分组名单变动、R星官方延迟发布GTA 6等突发信息,也能通过实时交互更新结论,避免传统模型“复述旧知识”的尴尬。

2. 时序敏感训练:杜绝“上帝视角”,模拟人类真实决策

为解决大模型常见的“未来信息泄露”问题(即训练时提前接触未来数据),MiroMind团队搭建“时序敏感训练沙盒”:所有训练数据均带有时间戳,模型仅能访问“当前时间点之前”的信息,需像人类一样在信息不全、存在噪声的环境中推演。

以预测GTA 6发售时间为例,模型仅能依据2026年初已公开的R星官方声明、开发进度报道,而非“预知”后续可能的延迟消息,最终得出“2026年11月19日为大概率发售日,无证据支持延期至2027年”的结论,与ChatGPT、Gemini等模型“误提2025年不可发售”的逻辑漏洞形成鲜明对比。

3. 零容忍幻觉:用“证据链”替代“概率猜测”

传统大模型常因“追求流畅性”输出无依据内容,而MiroThinker 1.5通过两大机制严控幻觉:一是对缺乏信源的推理结果给予惩罚,例如预测球队胜率时,必须引用Opta数据、世预赛表现等具体证据;二是采用“一次一步”工具调用规则,每条消息仅执行一个操作(如检索分组名单、验证球员伤病情况),确保每步推理都可追溯、可验证。

在A股连板股预测实测中,模型明确标注“再升科技晋级概率基于商业航天板块热度、4连板身位优势,但需警惕实控人减持风险”,并附上数据来源链接,彻底告别“模糊结论+事后找补”的行业通病。

三、落地实测:从世界杯预测到股市分析,复杂场景见真章

脱离实验室数据,MiroThinker 1.5在真实场景中的表现更具说服力。无论是体育赛事预测、游戏发售分析,还是高风险的股市判断,其“逻辑可视、证据可查”的特点都尤为突出:

1. 世界杯预测:层层拆解,连隐患都标注清晰

面对“2026美加墨世界杯胜率预测”需求,模型先梳理推理路径:检索分组名单→验证球队阵容→整合Opta夺冠概率→叠加晋级隐患。最终输出的结论不仅明确“西班牙(15-20%夺冠概率)为头号热门,法国、英格兰紧随其后”,还针对阿根廷队特别标注“梅西39岁体能受限、后防老将速度短板”等隐患,甚至计算出其“8-10%的夺冠概率,更现实目标为4强”,推理颗粒度远超同类模型。

2. 股市分析:噪声中抓主线,风险提示不缺位

在“选A股连板晋级股票”的高难度任务中,模型先判断市场环境(“指数高开低走,下跌个股超4300只,情绪处于退潮期”),再从连板梯队中锁定“商业航天板块龙头再升科技”,理由包括“4连板身位优势、SpaceX题材想象空间”,同时毫不避讳“实控人减持、业绩支撑弱”等风险,还主动提供“小仓位介入、严格止损”的操作建议,展现出专业分析师级别的审慎。

四、行业意义:开源普惠+成本优势,推动大模型“去贵族化”

MiroThinker 1.5的发布,不仅是技术突破,更对大模型行业生态产生深远影响:

1. 降低开发门槛:30B版本适配个人开发者

考虑到不同用户需求,MiroMind团队推出双版本策略:235B版本面向企业级复杂任务(如科研数据分析、商业决策支持),30B版本基于Qwen3-30B微调,可在普通GPU服务器(如单张A100)上部署,单条调用成本低至0.07美元。这意味着个人开发者无需百万级算力投入,也能搭建高性能搜索智能体,推动AI技术从“大厂专属”走向普惠。

2. 重构行业评价标准:从“比参数”到“比交互”

长期以来,参数规模、上下文长度是大模型的核心宣传点,而MiroThinker 1.5证明“智能密度”比“参数数量”更重要。其成功让行业开始反思:当万亿参数模型成本高企、落地困难时,“小参数+强交互”是否是更务实的路径?目前已有谷歌、Anthropic等机构表示,将借鉴“交互驱动”理念优化现有模型,行业竞争焦点正从“硬件堆料”转向“机制创新”。

五、团队背景:陈天桥“all in”AGI,代季峰掌舵技术

这款颠覆性模型的背后,是陈天桥与代季峰的“产学研”强强联合:作为前盛大集团创始人,陈天桥自2025年起便将重心转向AGI,不仅承诺“盛大孵化AI企业的一半利润分给团队”,还挖来清华大学电子工程系副教授代季峰——这位曾主导“可变形卷积”技术、任职商汤研究院的AI学者,直接放弃教职领衔MiroMind,目标是“打造下一个OpenAI,推动发现式智能落地”。

此前,该团队已凭借“成功预测Polymarket筛选题目”连续登顶Future X全球榜首,此次MiroThinker 1.5的发布,标志着其从“预测领域”向“通用智能体”的全面进军。

结语:大模型进入“巧劲时代”,交互能力成新战场

MiroThinker 1.5的横空出世,像一颗石子投入大模型行业的“参数内卷”洪流,证明AI的未来不在于“记住多少知识”,而在于“如何获取、验证、使用知识”。当陈天桥与代季峰用30B参数模型跑出1T性能的效果时,或许也在宣告:大模型的“堆料竞赛”已近尾声,以“交互”为核心的“巧劲时代”正式开启。

对于开发者而言,开源的MiroThinker 1.5提供了低成本探索智能体的工具;对于行业而言,这一突破或将重新定义“大模型强大的标准”。未来,当更多模型开始重视“主动求证”而非“被动复述”,AI才能真正从“知识容器”进化为“解决问题的伙伴”——而MiroMind团队,无疑已抢占了这场变革的先机。

© 版权声明

相关文章