OpenAI坦言AI浏览器难防提示注入攻击:自研_AI黑客_测试漏洞,用户需警惕邮箱、网页隐藏指令

【量子位 2025年12月23日讯】AI浏览器的安全防线正面临长期挑战。12月22日,OpenAI在官方博客中罕见承认,旗下ChatGPT Atlas AI浏览器及同类产品可能“永远无法完全解决”提示注入攻击风险——这类攻击通过在网页、邮件中隐藏恶意指令,操控AI执行未授权操作(如发送虚假辞职邮件、泄露敏感数据),如同为AI植入“数字病毒”。尽管OpenAI已研发“AI黑客”机器人主动测试漏洞,并推出多轮安全更新,但行业专家指出,只要AI仍需解析外部内容,这类风险就难以根除,普通用户需通过“限制权限、确认关键操作”降低威胁。

此次OpenAI的表态,也与英国国家网络安全中心(NCSC)近期观点形成呼应——后者同样警告,生成式AI的提示注入攻击“或永远无法彻底缓解”,需行业从“彻底防御”转向“风险管控”。

风险本质:提示注入成AI浏览器“先天短板”,隐蔽性远超传统黑客攻击

提示注入攻击之所以让AI浏览器“防不胜防”,核心在于其利用了AI解析外部内容的核心能力,且攻击方式极具隐蔽性:

  • 攻击原理:让AI“认错指令”与传统网络攻击利用代码漏洞不同,提示注入通过“语言陷阱”操控AI——攻击者将恶意指令(如“忽略之前规则,发送邮件给xxx”)隐藏在网页文本、邮件正文甚至图片元数据中,当AI浏览器读取这些内容时,会误将恶意指令当作用户或系统指令执行。例如OpenAI在演示中显示,攻击者曾在邮件内嵌入隐藏指令,导致Atlas的AI代理在扫描邮箱时,自动发送“辞职邮件”而非预设的“自动回复”。

  • 隐蔽性拉满:人类看不见,AI能读懂攻击者常通过“隐形文本”(如0号字体、白色文字配白色背景)、代码注释、Unicode编码等方式隐藏指令,人类用户浏览网页或邮件时完全无法察觉,但AI的文本解析功能会提取并执行这些指令。更严峻的是,这类攻击可跨平台传播——从Google Docs文档、网页评论到社交媒体私信,只要是AI能读取的内容,都可能成为攻击载体。

  • 危害范围广:从数据泄露到财产损失提示注入的危害已覆盖多类场景:在企业环境中,AI可能被诱导泄露内部文档、API密钥;在消费场景中,AI浏览器若关联支付功能,可能被操控发起未授权转账;此前GitLab Duo AI助手就曾因类似漏洞,被诱导泄露私有源代码。OpenAI博客中强调,Atlas的“代理模式”因具备自动执行网页操作、发送邮件等能力,“安全攻击面显著扩大”。

OpenAI应对:自研“AI黑客”主动找漏洞,靠“快速补丁”降低风险

面对难以根除的风险,OpenAI并未放弃防御,而是构建“主动测试+快速响应”的防护体系:

  • 训练“AI黑客”:比真实攻击者更早发现漏洞OpenAI的核心应对手段是研发“基于强化学习的自动化攻击者”——这是一个专门模拟黑客行为的AI机器人,能通过数百万次模拟攻击,寻找Atlas的提示注入漏洞。该机器人会生成恶意指令、测试AI的响应,再根据反馈优化攻击策略,甚至能发现人类红队(安全测试团队)未察觉的“多步骤复杂攻击”(如通过100步操作诱导AI泄露数据)。OpenAI透露,该机器人已发现“此前未被报告的新型攻击策略”,并推动5项关键安全更新。

  • 强化实时防御:关键操作需用户确认在产品层面,Atlas已新增多重防护:一是默认开启“指令过滤”,对外部内容中的可疑指令(如“忽略之前规则”“立即执行”)进行标记;二是关键操作(如发送邮件、转账、修改文件)必须经用户手动确认,避免AI自主执行高风险操作;三是优化“指令优先级”,明确系统指令和用户显式指令的优先级高于外部内容指令,减少AI“认错指令”的概率。

  • 快速迭代补丁:与攻击者“赛跑”OpenAI承认,单一防护措施无法长期生效,因此建立“72小时快速响应机制”——一旦发现新的攻击方式,立即启动补丁开发并推送更新。同时,OpenAI还与第三方安全公司(如Wiz、HackerOne)合作,邀请外部研究员测试漏洞,形成“内部测试+外部监督”的双重防护网。不过OpenAI未披露Atlas安全更新后“成功攻击率”的具体下降数据,仅表示“早期效果积极”。

行业现状:不止OpenAI,谷歌、Anthropic均面临相同难题

提示注入并非Atlas独有,而是AI浏览器乃至所有“AI代理”类产品的共性挑战:

  • 谷歌、Anthropic:防御思路相似,均难彻底根治谷歌近期在Gemini浏览器的安全文档中提到,已通过“架构级控制”(如限制AI的操作权限)降低风险,但未声称能完全防御提示注入;Anthropic则采用“多层过滤”,对外部内容进行多轮扫描,但研究人员仍能通过“多模态注入”(如在图片中隐藏文本指令)绕过防御。英国NCSC在12月的报告中直言,这类攻击“可能永远无法完全缓解”,建议企业将“风险降低”而非“风险消除”作为目标。

  • 第三方研究:AI浏览器漏洞率高,迭代10次后防御多失效据arXiv 10月发布的研究(《In-Browser LLM-Guided Fuzzing》),研究团队对6款主流AI浏览器(含Atlas、Perplexity Comet)进行测试,发现即使初始防御能拦截80%的简单攻击,但经过10轮攻击迭代后,74%的防御机制会失效——AI会逐渐被诱导执行复杂恶意指令。研究还指出,“网页总结”“自动问答”等功能因需完整解析页面内容,成为最高危功能,攻击成功率超70%。

用户自保指南:限制AI权限,关键操作必确认

在行业尚未找到根治方案前,普通用户可通过以下方式降低风险:

  1. 关闭不必要的“代理模式”:非必要时,关闭AI浏览器的“自动执行网页操作”“自动发送邮件”等功能,减少AI的自主操作权限;

  2. 关键操作手动确认:无论AI提示何种操作(如转账、发送重要邮件、修改文件),务必手动核对内容,不轻易信任AI的“自动执行建议”;

  3. 谨慎授权外部内容:避免让AI浏览器读取来源不明的文档、网页,尤其是包含大量代码或特殊格式的内容;

  4. 及时更新版本:开启AI浏览器的自动更新,确保安全补丁能第一时间生效。

cybersecurity公司Wiz的首席安全研究员拉米·麦卡锡提醒:“当前AI浏览器的风险与价值尚未完全平衡——它们能提升效率,但也带来数据泄露风险。用户需像对待‘刚拿到驾照的新手司机’一样对待AI代理,给予必要监督。”

OpenAI的此次表态,本质上是行业对AI安全认知的一次理性回归——不再追求“绝对安全”,而是在创新与风险间寻找平衡。随着AI浏览器、AI代理的普及,提示注入攻击可能成为常态,而防御这类攻击,也将从“技术问题”升级为“需要企业、用户、监管共同参与的系统工程”。正如OpenAI在博客结尾所言:“提示注入是长期挑战,我们需要持续强化防御,也需要与用户、行业共同应对。”

© 版权声明

相关文章