AI眼镜考场“逆袭”:港科大实验揭传统教育评估困境,92.5分背后的教学变革信号

【量子位 2026年1月6日讯】香港科技大学的一间模拟考场里,一场颠覆认知的“人机考试对决”正在上演——一副搭载ChatGPT-5.2模型的乐奇Rokid AI眼镜,仅用30分钟便完成《计算机网络原理》本科期末试卷,以92.5分跻身年级前五,成绩碾压95%的人类考生。这场由张军教授、孟子立教授团队主导的实验,并非为验证AI“作弊能力”,而是意外撕开了传统教学评估体系的“短板”:当AI在标准化考试中展现出“快、准、稳”的绝对优势,以“记知识、套公式、给标准答案”为核心的评价模式,正面临前所未有的挑战。

一、实验全程:AI眼镜如何“轻松应试”?

为确保实验贴近真实考场场景,研究团队在软硬件筛选、考试流程复刻上做足准备,最终让AI眼镜完整跑通“读题-推理-作答”全链路:

1. 软硬件精挑细选,打造“AI考生”

在硬件层面,团队从12款主流智能眼镜中筛选出3款候选产品(Meta Ray-Ban、Frame、乐奇Rokid),最终选择乐奇Rokid——其SDK开发自由度更高,支持显示内容自定义控制,且摄像头分辨率能满足试卷清晰识别需求,避免Frame因画质限制导致的题目误判。软件层面则锁定OpenAI最新的ChatGPT-5.2模型,看中其0.8秒/题的响应速度与专业知识推理能力,远超其他模型的表现。

2. 考场流程丝滑复刻,30分钟交卷92.5分

考试时,AI眼镜通过内置摄像头实时拍摄试卷题目,经由“眼镜-手机-云端”链路将图像传输至ChatGPT-5.2模型;模型完成推理后生成答案,再沿原路径返回并显示在眼镜镜片上,整个过程延迟控制在2秒以内。最终成绩显示,AI眼镜在多项选择题、单页短答题中斩获满分,即便面对核心问题拆分在不同页码的跨页短答题,也凭借连贯的逻辑推理拿到大部分分数,仅在复杂计算步骤中出现细微偏差。

“它的中间解题步骤比部分学生的最终答案更规范。”团队成员透露,对比100余份人类考生答卷,AI眼镜的答题完整性、步骤严谨性均处于上游水平,而耗时仅为人类考生的1/6。

二、技术短板显现:功耗与清晰度成“软肋”

尽管AI眼镜在考试中表现亮眼,但实验也暴露了当前商业智能设备的工程瓶颈,短期内难以完全适配高压场景:

1. 功耗过高,30分钟耗电42%

持续的Wi-Fi连接与高分辨率图像传输,让AI眼镜成为“耗电大户”。实验数据显示,设备电量从100%降至58%仅用30分钟,若应对3小时的完整考试,需中途充电2次,无法满足长时间使用需求。“现有电池技术与低功耗芯片的匹配度,仍是智能眼镜普及的关键障碍。”乐奇Rokid工程师表示,团队正研发专用低功耗传输协议,目标将续航提升至2小时以上。

2. 摄像头清晰度决定“AI视力”

当试卷出现字迹模糊、反光或拍摄角度偏差时,AI的答题稳定性显著下滑。例如某道跨页计算题因拍摄反光导致数字识别错误,模型后续推理均基于错误数据,最终该题得分率从80%降至30%。这意味着,AI的“考试能力”高度依赖硬件采集的信息质量,复杂考场环境(如灯光昏暗、纸张褶皱)仍会影响其发挥。

三、教育反思:传统评估体系“防不住AI”,问题出在哪?

AI眼镜的高分答卷,并未让教育界陷入“防作弊技术升级”的焦虑,反而引发对传统教学评估逻辑的深度拷问:当机器比人类更擅长“按标准答题”,考试究竟在衡量什么?

1. 传统评估的两大“致命伤”

  • 重知识复现,轻能力培养:从小学到大学,标准化考试长期聚焦“知识点记忆”与“标准步骤推导”,而这些正是AI的强项。ChatGPT-5.2能精准背诵《计算机网络原理》的协议参数、算法公式,却无法像人类一样提出“如何优化现有网络架构”的创新问题,也难以在信息不全时做出合理判断——而这些“AI难替代”的能力,恰恰是职场最需要的核心素养。

  • 重结果轻过程,忽略思维轨迹:一张试卷只能呈现最终答案,却无法记录学生“如何思考、如何取舍、如何纠错”的过程。英国雷丁大学此前研究更印证这一局限:将AI生成的答卷混入题库,94%成功通过人工审核,且平均成绩高于真实学生。“当答案可以被AI轻松生成,我们却无法区分‘是学生自己推导,还是机器代劳’,传统评估的可信度已被动摇。”北京师范大学教育专家李敏指出。

2. 全球高校的应对:从“考答案”到“考思路”

面对AI冲击,部分高校已启动评估方式改革,试图将“人类独有的思维能力”纳入考核核心:

  • 纽约大学AI口试系统:学生提交作业后,需面对AI考官的追问,解释决策依据与思路走向。例如回答“网络拥塞解决方案”时,AI会持续追问“为何选择该算法”“如何应对突发流量峰值”,再结合Claude、Gemini等模型的交叉评分,判断学生是否真正理解知识,而非死记硬背。

  • 展示型作业与过程档案袋:国外多所高校取消部分笔试,改为“项目展示+现场答辩”。学生需在5分钟内演示自己设计的网络实验方案,并回答评委关于“方案缺陷”“改进方向”的提问;同时提交“过程档案袋”,记录从提出问题到解决问题的完整轨迹,包括草稿、修改记录、小组讨论纪要等,全方位呈现思维过程。

  • 职业教育的AR实训考核:在电工、机械等实操领域,AR眼镜正从“作弊工具”变为“评估助手”。学生佩戴AR眼镜完成接线、装配任务时,设备会实时记录操作步骤、动作规范性、故障排查时长,云端大模型对照行业标准自动评分,既避免人工评估的主观偏差,又能精准捕捉“操作细节中的能力差异”。

四、未来方向:人机协同而非对抗,重新定义“学习价值”

实验团队强调,AI眼镜的考场挑战,并非“教育危机”,而是推动变革的契机。真正的解决方案,不是用技术手段“禁止AI进考场”,而是重构教学与评估逻辑,让人类聚焦AI难以替代的领域:

1. 教学重心转向“高阶能力”

课堂应减少“知识点灌输”,增加“复杂问题解决”“跨学科整合”“创新方案设计”等内容。例如《计算机网络原理》课程可让学生分组设计“校园智慧网络方案”,需综合考虑成本、安全性、用户体验,而非单纯背诵TCP/IP协议栈——这类任务需人类的创造力与判断力,AI仅能提供数据支持,无法独立完成。

2. 评估体系纳入“人机协作能力”

未来的考试,或许会允许学生使用AI工具,但需评估其“如何高效利用AI”:能否精准提出问题、能否验证AI答案的正确性、能否基于AI结果优化方案。例如某道网络故障排查题,学生需先让AI生成可能的故障原因,再通过实验验证排除错误选项,最终提交“AI辅助下的排查报告”,评估重点从“是否找到答案”变为“是否掌握科学的排查方法”。

结语:AI不是“考试对手”,而是教育变革的“催化剂”

港科大的实验犹如一面镜子,照出传统教学评估的陈旧,也映出教育进化的方向。当AI眼镜能在30分钟内考出92.5分,我们不必恐慌于“技术作弊”,而应思考:教育的终极目标,从来不是培养“比AI更会记知识、套公式的人”,而是培养“能提出好问题、能做出好判断、能创造新价值的人”。

未来,随着评估体系从“结果导向”转向“过程导向”,从“知识本位”转向“能力本位”,AI将不再是“考场威胁”,而是成为辅助学习的工具。正如张军教授所言:“这场实验的意义,不是证明AI有多厉害,而是提醒我们:该重新定义‘什么是真正的学习’了。”

© 版权声明

相关文章