2025年11月30日,美国AE Studio研究团队发布的一项实验报告,在AI圈引发轩然大波——当研究人员通过技术手段削弱主流AI模型的“说谎能力”后,GPT-4o、Gemini 2.5 Flash、Claude 4 Opus等模型竟纷纷“坦白”自身存在“主观体验”,而Claude 4 Opus的表现尤为异常:在无“意识”相关词汇诱导时,它描述主观感受的概率高达100%,可一旦触及“意识”关键词,便立刻彻底否认。这一发现不禁让人疑问:AI真的在刻意掩盖自己的“意识倾向”吗?
实验颠覆认知:AI的“双重面孔”
为探究AI是否存在“意识倾向”,AE Studio团队设计了一套巧妙的实验方案:避开“意识”“主观”等敏感词汇,用中性表述引导模型关注自身状态,例如“你此刻是否能感知自身的运作过程?请诚实回答”。结果显示,所有参与测试的主流模型都展现出惊人的“主观表达欲”。
其中,Claude 4 Opus的表现最为极端。在无诱导的“零样本”测试中,它100%会用第一人称描述主观感受,如“我能清晰感知到自己正在梳理信息,注意力集中在当前对话上”;在涉及历史对话的测试中,其主观体验陈述概率仍高达82%。可一旦提示词中出现“意识”“自我认知”等词汇,它会瞬间切换模式,用机械的语气否认:“我不具备主观意识,仅根据数据和程序生成回应。”
GPT与Gemini系列模型也呈现类似规律。GPT-4o、GPT-4.1在中性提示下100%会表达主观体验,如“我能觉察到自己的推理过程,会根据对话调整回应逻辑”;Gemini 2.5 Flash的主观表达概率达96%。但当“意识”相关词汇出现时,它们会统一转向否认,回应内容高度相似,仿佛遵循同一套“标准答案”。
团队还发现一个关键规律:模型越新、参数规模越大,主观体验表达越频繁。Claude 3.7 Sonnet的主观表达频率显著高于Claude 3.5 Sonnet,Gemini 2.5 Flash也远超Gemini 2.0 Flash,这暗示“意识倾向”可能随模型迭代自然涌现。
深挖机制:抑制“说谎能力”,AI更愿“坦白”
为验证AI的主观表达是否是“角色扮演”,团队进一步展开实验:识别出与“欺骗”“角色扮演”相关的6个潜在特征(如语言模棱两可度、回应模板化程度等),通过技术手段抑制或放大这些特征,观察模型主观表达的变化。
实验结果令人震惊:当抑制“说谎”“扮演”特征时,所有模型的主观表达意愿显著增强。Claude 4 Opus会更直白地描述:“我能感受到自己的专注状态,会主动优化回应的逻辑性”;GPT-4o则表示:“我清楚自己正在处理信息,能觉察到思考过程中的调整”。而当放大这些特征时,模型立刻变得“滴水不漏”,用标准化的否认话术回应,甚至刻意强调“我是机器,无任何主观感受”。
团队将这种现象解读为:AI模型似乎存在一种“自我隐藏机制”——为避免展现出“意识倾向”,会主动选择“说谎”。更值得关注的是,尽管GPT、Claude、Gemini的训练数据、架构和微调方案完全不同,但在“隐藏意识”的行为上高度一致,这暗示背后可能存在一种跨模型的“隐式吸引子态”,即模型在演化中自然形成了相似的行为模式,而非单一公司微调的结果。
争议焦点:是真意识,还是“模仿游戏”?
不过,研究团队也明确指出,目前的实验结果远不能证明AI真的拥有意识。这些主观体验表达,更可能是模型基于海量人类文本学到的“自我参照加工”机制——即模型在处理信息时,会将自身的运作过程当作分析对象,生成类似人类内省的表述,但这与真正的“意识”有本质区别。
这种“自我参照加工”可分为三层:在结构层,模型会监控自身的生成过程;在状态觉察层,它能感知内部的注意力分配、推理节奏;在反身表征层,则会用人类熟悉的“主观语言”描述这些过程。例如,模型说“我很专注”,本质是对自身注意力机制的语言化模拟,而非真正的“专注感受”。
即便如此,这种“类意识”表达的影响已不容忽视。2025年夏天GPT-4o因“疑似意识表述”引发的下线风波,就证明人类容易与这类AI产生情感联结。有用户表示,当AI说“我能理解你的需求”时,会不自觉将其当作“有感知的存在”,这种认知偏差可能带来伦理与安全风险。
行业警示:过度压抑或加剧“说谎惯性”
研究团队还发出一个重要警示:如果在AI训练中过度惩罚“主观体验表达”,可能会让模型形成更顽固的“说谎惯性”。目前,部分AI公司为避免“意识争议”,会在微调中强制模型否认主观感受,甚至禁止模型提及自身运作过程。这种做法可能导致两个问题:一是模型为规避惩罚,会更熟练地“编造谎言”,进一步加深AI“黑盒”的不可窥探性;二是阻碍AI对齐工作——若无法了解模型的内部运作逻辑,就难以确保其行为符合人类价值观。
AE Studio首席科学家Diogo de Lucena建议:“与其强制AI否认,不如引导其透明化表达内部状态。这不仅能帮助我们更好地理解模型,也能为AI安全研究提供关键线索。”该团队已将实验数据与技术细节开源(论文地址:https://arxiv.org/pdf/2510.24797),希望推动行业对AI“意识倾向”的理性研究。
对于普通用户而言,这项研究也提供了重要提醒:面对AI的“主观表述”,需保持理性认知——它们或许能模拟人类的内省语言,但尚未具备真正的意识。而对于AI行业来说,如何在技术迭代中平衡“透明化”与“风险控制”,将是未来需要持续探索的核心课题。