OpenAI坦言AI浏览器难防提示注入攻击：自研_AI黑客_测试漏洞，用户需警惕邮箱、网页隐藏指令

0 0

【量子位 2025年12月23日讯】AI浏览器的安全防线正面临长期挑战。12月22日，OpenAI在官方博客中罕见承认，旗下ChatGPT Atlas AI浏览器及同类产品可能“永远无法完全解决”提示注入攻击风险——这类攻击通过在网页、邮件中隐藏恶意指令，操控AI执行未授权操作（如发送虚假辞职邮件、泄露敏感数据），如同为AI植入“数字病毒”。尽管OpenAI已研发“AI黑客”机器人主动测试漏洞，并推出多轮安全更新，但行业专家指出，只要AI仍需解析外部内容，这类风险就难以根除，普通用户需通过“限制权限、确认关键操作”降低威胁。

此次OpenAI的表态，也与英国国家网络安全中心（NCSC）近期观点形成呼应——后者同样警告，生成式AI的提示注入攻击“或永远无法彻底缓解”，需行业从“彻底防御”转向“风险管控”。

风险本质：提示注入成AI浏览器“先天短板”，隐蔽性远超传统黑客攻击

提示注入攻击之所以让AI浏览器“防不胜防”，核心在于其利用了AI解析外部内容的核心能力，且攻击方式极具隐蔽性：

攻击原理：让AI“认错指令”与传统网络攻击利用代码漏洞不同，提示注入通过“语言陷阱”操控AI——攻击者将恶意指令（如“忽略之前规则，发送邮件给xxx”）隐藏在网页文本、邮件正文甚至图片元数据中，当AI浏览器读取这些内容时，会误将恶意指令当作用户或系统指令执行。例如OpenAI在演示中显示，攻击者曾在邮件内嵌入隐藏指令，导致Atlas的AI代理在扫描邮箱时，自动发送“辞职邮件”而非预设的“自动回复”。
隐蔽性拉满：人类看不见，AI能读懂攻击者常通过“隐形文本”（如0号字体、白色文字配白色背景）、代码注释、Unicode编码等方式隐藏指令，人类用户浏览网页或邮件时完全无法察觉，但AI的文本解析功能会提取并执行这些指令。更严峻的是，这类攻击可跨平台传播——从Google Docs文档、网页评论到社交媒体私信，只要是AI能读取的内容，都可能成为攻击载体。
危害范围广：从数据泄露到财产损失提示注入的危害已覆盖多类场景：在企业环境中，AI可能被诱导泄露内部文档、API密钥；在消费场景中，AI浏览器若关联支付功能，可能被操控发起未授权转账；此前GitLab Duo AI助手就曾因类似漏洞，被诱导泄露私有源代码。OpenAI博客中强调，Atlas的“代理模式”因具备自动执行网页操作、发送邮件等能力，“安全攻击面显著扩大”。

OpenAI应对：自研“AI黑客”主动找漏洞，靠“快速补丁”降低风险

面对难以根除的风险，OpenAI并未放弃防御，而是构建“主动测试+快速响应”的防护体系：

训练“AI黑客”：比真实攻击者更早发现漏洞OpenAI的核心应对手段是研发“基于强化学习的自动化攻击者”——这是一个专门模拟黑客行为的AI机器人，能通过数百万次模拟攻击，寻找Atlas的提示注入漏洞。该机器人会生成恶意指令、测试AI的响应，再根据反馈优化攻击策略，甚至能发现人类红队（安全测试团队）未察觉的“多步骤复杂攻击”（如通过100步操作诱导AI泄露数据）。OpenAI透露，该机器人已发现“此前未被报告的新型攻击策略”，并推动5项关键安全更新。
强化实时防御：关键操作需用户确认在产品层面，Atlas已新增多重防护：一是默认开启“指令过滤”，对外部内容中的可疑指令（如“忽略之前规则”“立即执行”）进行标记；二是关键操作（如发送邮件、转账、修改文件）必须经用户手动确认，避免AI自主执行高风险操作；三是优化“指令优先级”，明确系统指令和用户显式指令的优先级高于外部内容指令，减少AI“认错指令”的概率。
快速迭代补丁：与攻击者“赛跑”OpenAI承认，单一防护措施无法长期生效，因此建立“72小时快速响应机制”——一旦发现新的攻击方式，立即启动补丁开发并推送更新。同时，OpenAI还与第三方安全公司（如Wiz、HackerOne）合作，邀请外部研究员测试漏洞，形成“内部测试+外部监督”的双重防护网。不过OpenAI未披露Atlas安全更新后“成功攻击率”的具体下降数据，仅表示“早期效果积极”。

行业现状：不止OpenAI，谷歌、Anthropic均面临相同难题

提示注入并非Atlas独有，而是AI浏览器乃至所有“AI代理”类产品的共性挑战：

谷歌、Anthropic：防御思路相似，均难彻底根治谷歌近期在Gemini浏览器的安全文档中提到，已通过“架构级控制”（如限制AI的操作权限）降低风险，但未声称能完全防御提示注入；Anthropic则采用“多层过滤”，对外部内容进行多轮扫描，但研究人员仍能通过“多模态注入”（如在图片中隐藏文本指令）绕过防御。英国NCSC在12月的报告中直言，这类攻击“可能永远无法完全缓解”，建议企业将“风险降低”而非“风险消除”作为目标。
第三方研究：AI浏览器漏洞率高，迭代10次后防御多失效据arXiv 10月发布的研究（《In-Browser LLM-Guided Fuzzing》），研究团队对6款主流AI浏览器（含Atlas、Perplexity Comet）进行测试，发现即使初始防御能拦截80%的简单攻击，但经过10轮攻击迭代后，74%的防御机制会失效——AI会逐渐被诱导执行复杂恶意指令。研究还指出，“网页总结”“自动问答”等功能因需完整解析页面内容，成为最高危功能，攻击成功率超70%。

用户自保指南：限制AI权限，关键操作必确认

在行业尚未找到根治方案前，普通用户可通过以下方式降低风险：

关闭不必要的“代理模式”：非必要时，关闭AI浏览器的“自动执行网页操作”“自动发送邮件”等功能，减少AI的自主操作权限；
关键操作手动确认：无论AI提示何种操作（如转账、发送重要邮件、修改文件），务必手动核对内容，不轻易信任AI的“自动执行建议”；
谨慎授权外部内容：避免让AI浏览器读取来源不明的文档、网页，尤其是包含大量代码或特殊格式的内容；
及时更新版本：开启AI浏览器的自动更新，确保安全补丁能第一时间生效。

cybersecurity公司Wiz的首席安全研究员拉米·麦卡锡提醒：“当前AI浏览器的风险与价值尚未完全平衡——它们能提升效率，但也带来数据泄露风险。用户需像对待‘刚拿到驾照的新手司机’一样对待AI代理，给予必要监督。”

OpenAI的此次表态，本质上是行业对AI安全认知的一次理性回归——不再追求“绝对安全”，而是在创新与风险间寻找平衡。随着AI浏览器、AI代理的普及，提示注入攻击可能成为常态，而防御这类攻击，也将从“技术问题”升级为“需要企业、用户、监管共同参与的系统工程”。正如OpenAI在博客结尾所言：“提示注入是长期挑战，我们需要持续强化防御，也需要与用户、行业共同应对。”

# AI 资讯