国产AI竟能自主写论文解读、复刻网站?GLM-4.6V实测:多模态能力颠覆内容创作与办公效率

AI 资讯4小时前发布 dennis
0

【量子位 2025年12月8日讯】当AI不仅能读懂论文,还能自动生成图文并茂的公众号推文,甚至看一眼网页就能复刻出完整代码时,内容创作者与办公族的“危机感”或许真的来了。12月7日,智谱AI最新升级的视觉推理模型GLM-4.6V引发行业震动——有用户实测发现,只需将NeurIPS 2025最佳论文PDF上传,并附上一句“解读论文并写公众号推送”的指令,该模型仅用几分钟就输出了结构完整、图表标注清晰的科普文章,从标题拟定到逻辑拆解全程无需人工干预。更令人惊叹的是,其能力远不止于此:对比财报、翻译长视频、复刻网站界面、识别古文手稿,甚至解决考研数学题,GLM-4.6V以“全能多模态助手”的姿态,重新定义了AI在专业场景的应用边界。

5分钟搞定论文解读推文:从“注意力沉没”难题到可视化呈现

GLM-4.6V在学术内容创作上的表现,堪称“科研助手天花板”。以NeurIPS 2025最佳论文《Gated Attention for Large Language Models》为例,用户仅需上传论文PDF并下达简单指令,模型便会自动完成“深度解读+内容结构化+可视化排版”全流程:

首先,它会精准抓取论文核心价值——针对大模型“注意力沉没”痛点(标准softmax注意力在长序列中过度关注初始token,导致上下文利用率低),提炼出“门控注意力(Gated Attention)”这一解决方案,并将文章拆解为“引言-核心问题-破局之道-实验结果-结论”六大板块,逻辑完全符合学术解读的专业范式。

更关键的是,模型能智能处理论文中的图表:自动截取关键实验图(如基线模型与门控模型的注意力分数对比图),标注“图2:左侧为基线模型对初始token的注意力分配,右侧为门控模型优化后效果”等说明文字,甚至将复杂的实验数据表格(如15B参数MoE模型在MMLU、GSM8K等基准测试的性能提升)转化为更易读的图文结合形式。有科研人员实测后表示:“以前写一篇论文解读推文要花3小时整理资料,现在GLM-4.6V几分钟就能搞定,连‘Gates一下’这种生动的标题都能想出来,比人工更懂传播逻辑。”

不止写推文:从财报对比到视频翻译,办公场景全覆盖

GLM-4.6V的多模态能力已渗透到办公全流程,解决了多个“效率痛点”:

数据处理场景,上传苹果、谷歌、亚马逊、Meta四家公司的Q3财报,模型能自动提取收入、净利润、同比增长率等核心指标,生成对比表格,并通过柱状图、折线图可视化呈现——例如清晰标注“Amazon以1801.69亿美元收入居首,Alphabet净利润349.79亿美元领先”,还能分析“Meta净利润下滑83%源于一次性税项调整”等关键结论,省去人工筛选数据、制作图表的繁琐过程。

视频处理领域,针对Ilya Sutskever在多伦多大学的10分钟英文演讲视频,模型仅需几十秒就能完成内容总结,提炼出“AI堪比电力、互联网的划时代意义”“拥抱技术需兼顾伦理责任”等核心观点;若进一步要求翻译,还能生成完整的中文演讲稿,甚至还原演讲中的情感语气,解决了“看英文视频依赖字幕、逐句翻译耗时”的难题。

就连复杂跨文档任务也不在话下。同时上传Transformer与Mamba两篇经典论文,让模型“对比架构异同并预判大模型发展方向”,它会先分别解析两种架构的核心机制(Transformer的自注意力、Mamba的选择性SSM),再以表格形式对比计算复杂度(Transformer为O(n²),Mamba为O(n))、长序列处理效率等关键维度,最后提出“架构混合融合”“长序列建模突破”等前瞻性判断,专业度获AI领域从业者认可。

前端程序员狂喜:看一眼B站首页,自动生成完整代码

GLM-4.6V的“可视化转代码”能力,更是颠覆了前端开发效率。用户只需上传一张B站首页截图,下达“复刻网站并包含所有图片”的指令,模型便能在几分钟内输出可直接运行的HTML+CSS代码:

代码不仅还原了B站的核心布局——顶部导航栏(包含番剧、直播、游戏中心等入口)、分类标签栏(国创、鬼畜、科技数码等分区)、轮播图Banner、4列视频卡片(含缩略图、播放量、标题),甚至能实现“响应式设计”,在手机、电脑等不同屏幕尺寸下自动调整排版。若进一步要求“改为深色模式”,模型会快速修改代码:将背景色从#f5f5f5调整为#121212,导航栏卡片改为#1e1e1e,文字色转为#fff,同时保留原有交互逻辑。

有前端开发者测试后测算:“手动复刻B站首页至少需要4小时,GLM-4.6V几分钟就能完成,还能根据需求实时调整风格,API调用成本却低至输入1元/百万tokens,简直是降本增效神器。”

细节见真章:古文识别、猫咪品种检测,小众需求也能满足

除了专业场景,GLM-4.6V在小众需求上的表现同样惊艳,展现出“万物皆可处理”的多模态实力:

文字识别领域,面对竖排繁体的古文手稿(如佛教经典《摩利支天经》片段),模型能自动识别“从右到左、从上到下”的阅读顺序,准确转录文字内容,并标注“手稿含红色印章,左侧有跪拜人物插图”等细节;针对手机拍摄的模糊表格、考研数学题截图,它能精准OCR提取文字,甚至自动解题——例如针对“判断函数f(x)与g(x)的奇偶性”题目,不仅给出“均为奇函数”的答案,还分步推导积分变量替换过程,堪比专业教辅。

图像分析场景,上传多张猫咪合影,要求“识别品种并以JSON格式返回坐标框”,模型能精准区分虎斑猫、暹罗猫、美短、缅因猫等品种,输出包含label(如“虎斑猫-1”)和bbox_2d(如[95,152,192,825])的结构化结果,经渲染后可清晰看到每只猫咪的标注框,准确率达到开源模型SOTA水平。

硬实力背书:128K上下文+同级别SOTA,价格还降50%

GLM-4.6V的强大表现,源于其底层技术的全面升级。该模型分为两个版本:面向云端的GLM-4.6V(106B-A12B)与面向本地部署的轻量版GLM-4.6V-Flash(9B),前者将上下文窗口提升至128K tokens,可处理超长篇文档(如百万字小说、完整代码库);在MMBench、MathVista、OCRBench等30多个主流多模态评测中,106B版本比肩2倍参数量的Qwen3-VL-235B,9B轻量版也超越Qwen3-VL-8B,综合性能居同级别开源模型首位。

更具性价比的是,GLM-4.6V系列价格较上一代GLM-4.5V降价50%,API调用成本低至输入1元/百万tokens、输出3元/百万tokens,且已纳入智谱Coding Plan套餐,大幅降低企业与个人用户的使用门槛。

从学术解读到办公效率,从代码生成到图像分析,GLM-4.6V的出现标志着国产AI已进入“全场景多模态实用化”阶段。正如有用户感叹:“以前觉得AI只是辅助工具,现在发现它能接管从内容创作到数据处理的大部分工作,再不提升核心竞争力,真的要被AI‘抢饭碗’了。”目前,用户可通过智谱官网(https://chat.z.ai)体验该模型,其未来在教育、医疗、设计等领域的应用,更值得期待。

© 版权声明

相关文章