【TechCrunch 2026年1月12日讯】生成式AI的“数据饥渴”正引发新的合规风险。据《Wired》报道,OpenAI正联合训练数据公司Handshake AI,要求第三方外包人员上传过往及当前工作中的真实成果文件——从Word报告、Excel表格到代码仓库,覆盖白领工作全场景。此举被解读为OpenAI加速“白领工作自动化”的关键布局,但知识产权律师直言,这种高度依赖外包人员自判机密性的模式,让OpenAI“站在法律高风险边缘”。
截至发稿,OpenAI发言人未回应置评请求,但其推荐的ChatGPT“Superstar Scrubbing”脱敏工具已引发争议——该工具能否彻底清除敏感信息、外包人员是否具备准确识别机密的能力,均成为行业质疑的焦点。
一、数据收集细则:要“原始文件”不要“摘要”,覆盖多类白领产出
根据《Wired》获取的OpenAI内部演示文稿,此次数据收集有着明确且严格的要求,核心是获取“真实场景下的完整工作成果”,而非经过加工的样本:
1. 文件类型:瞄准白领核心产出
外包人员需上传的“真实工作成果”涵盖六大类,几乎覆盖主流白领岗位的核心产出物:
-
办公文档:Word报告(如项目计划书、会议纪要)、PDF合同/方案、PowerPoint演示文稿(含演讲备注);
-
数据工具:Excel表格(含公式、宏命令)、SQL查询语句、数据可视化图表;
-
代码资产:GitHub代码仓库、API接口文档、软件测试报告;
-
设计文件:UI/UX设计稿(Figma源文件)、产品原型图、Logo源文件;
-
多媒体素材:工作场景照片(如活动记录、设备实拍)、培训视频片段;
-
行业专属文件:金融领域的财务模型、法律领域的合同草案、教育领域的课程大纲。
演示文稿特别强调:“必须是具体产出物,而非文件摘要或描述”,例如上传完整的项目预算Excel表,而非仅说明“制作过预算表”。
2. 脱敏要求:依赖外包人员+ChatGPT工具
为规避合规风险,OpenAI要求外包人员删除文件中的两类信息,并提供工具支持:
-
强制删除内容:公司专有信息(如内部流程、未公开产品计划)、个人身份信息(PII,如姓名、邮箱、电话、工号);
-
推荐工具:使用ChatGPT“Superstar Scrubbing”功能自动识别并抹除敏感信息,该工具宣称可“精准定位98%的PII数据”。
但实操中存在明显漏洞。一位不愿具名的外包人员向TechCrunch透露:“有些文件里的‘专有信息’很模糊,比如公司内部常用的项目命名规则,我不确定是否需要删除;而且工具偶尔会误删正常数据,手动核对又很耗时。”
二、战略意图:瞄准“白领自动化”,构建专属高质量数据集
OpenAI此举并非孤立行为,而是AI行业争夺“高质量训练数据”的缩影。随着基础模型能力逼近瓶颈,“更贴近真实工作场景的数据”成为突破关键,尤其是能支撑“白领工作自动化”的专项数据:
1. 弥补现有数据短板
此前,OpenAI训练代码模型多依赖GitHub公开代码,但这类数据存在两大缺陷:
-
缺乏上下文:仅包含代码本身,缺少“为什么这么写”的自然语言解释,难以支撑AI理解编程逻辑;
-
场景局限性:公开代码多为个人项目或开源工具,与企业内部的复杂业务场景(如财务系统开发、客户管理系统维护)差距较大。
而此次收集的“真实工作文件”恰好填补空白。例如一份包含“需求文档+代码+测试报告”的完整项目文件,能让AI学习“从业务需求到技术实现”的全链路逻辑,这正是自动化白领工作(如程序员、产品经理、分析师)的核心能力。
2. 行业竞争倒逼数据策略
据行业调研机构PitchBook数据,2025年全球AI公司在“高质量训练数据”上的投入同比增长120%,谷歌、Anthropic等竞品均在通过类似方式收集垂直领域数据:
-
谷歌去年底招募金融从业者上传财报分析报告,用于训练AI财务助手;
-
Anthropic则聚焦法律领域,收集律师的合同审查文档与法律意见书。
在此背景下,OpenAI的动作被视为“争夺白领自动化赛道话语权”的关键一步。一位AI行业分析师指出:“谁先掌握足够多的真实工作数据,谁就能在‘AI替代白领’的竞赛中抢占先机,这直接关系到未来10年的商业格局。”
三、合规风暴:律师警告“风险失控”,三大隐患浮出水面
尽管OpenAI强调“脱敏处理”,但知识产权律师与行业专家普遍认为,这种数据收集模式存在难以规避的法律与伦理风险:
1. 机密判断依赖外包人员,失误率高
最核心的风险在于“机密信息的界定权交给了外包人员”。知识产权律师埃文·布朗(Evan Brown)在接受《Wired》采访时直言:“外包人员并非法律或合规专家,他们无法准确判断哪些信息属于商业机密、哪些受版权保护。比如一份看似普通的项目周报,可能包含公司未公开的战略规划,这种误判会让OpenAI陷入侵权纠纷。”
更严峻的是,部分外包人员可能为完成任务“心存侥幸”。TechCrunch获取的一份外包沟通记录显示,有人员询问“能否隐去公司名称后上传内部流程文档”,而中介机构的回复是“只要不包含明显标识即可”,未进行严格审核。
2. 脱敏工具无法彻底消除风险
OpenAI推荐的ChatGPT“Superstar Scrubbing”工具并非万能。网络安全公司Mandiant的测试显示,该工具对“显性PII”(如完整姓名、电话)的识别率达95%,但对“隐性敏感信息”(如通过数据组合可反推的公司机密、客户信息)识别率不足30%:
-
例如一份客户满意度Excel表,即使删除客户姓名,通过“购买产品+地区+消费金额”的组合,仍可能匹配到具体客户;
-
代码文件中的“变量命名规则”“接口地址格式”等细节,可能成为黑客攻击企业系统的线索。
“脱敏不是简单的‘删除关键词’,需要对数据进行深度匿名化处理,而当前工具显然达不到这个标准。”Mandiant高级安全研究员艾米丽·陈(Emily Chen)表示。
3. 责任归属模糊,纠纷难解
一旦发生数据泄露或侵权,责任界定将成为难题:
-
OpenAI的免责逻辑:声称“已要求外包人员删除敏感信息,且提供了脱敏工具”,试图将责任转移给外包人员;
-
外包人员的困境:多数人签署的合同中未明确“数据合规失误的赔偿条款”,却可能因操作不当面临法律追责;
-
原雇主的潜在损失:若公司机密通过这种方式流入OpenAI,可能导致商业竞争劣势,甚至引发知识产权诉讼。
目前,已有两家美国科技公司表示“正在核查内部文件是否被外泄”,不排除对OpenAI采取法律行动。
四、行业反思:AI数据收集需建立“合规框架”
OpenAI的争议事件,再次暴露了生成式AI行业“重技术、轻合规”的通病。要解决这一问题,仅靠企业“自我约束”远远不够,需构建多维度的规范体系:
1. 明确数据收集的“负面清单”
行业需联合制定“不可收集的数据类型”,例如:
-
受保密协议保护的文件(如企业并购方案、专利申请材料);
-
包含个人敏感信息的工作成果(如员工绩效评估、客户隐私数据);
-
涉及国家安全或公共利益的内容(如政府项目文档、关键基础设施设计图)。
2. 引入第三方合规审核
建议AI公司在收集数据时引入独立的合规机构,而非依赖内部或外包团队自审:
-
第三方机构需具备法律、数据安全、行业知识的复合能力;
-
对每批收集的数据进行抽样审核,确保脱敏达标;
-
建立“数据溯源机制”,一旦出现问题可快速定位责任方。
3. 加强外包人员合规培训
在招募外包人员时,需增加“数据合规”的强制培训与考核:
-
讲解商业机密、版权、隐私保护的基本法律常识;
-
提供具体案例教学(如“哪些文件绝对不能上传”“如何识别隐性敏感信息”);
-
建立“违规举报机制”,鼓励外包人员对可疑要求说“不”。
结语:数据竞赛不应以合规为代价
OpenAI的此次数据收集行动,本质上是AI行业“高速发展与合规滞后”矛盾的集中爆发。追求“白领工作自动化”的目标无可厚非,但这不能成为“忽视数据安全与法律边界”的借口。
对OpenAI而言,若不能妥善解决合规风险,不仅可能面临巨额罚款与诉讼,更会损害用户与合作伙伴的信任——这恰恰是AI公司最宝贵的资产。而对整个行业来说,只有建立“技术创新与合规保障并行”的发展模式,才能让AI真正赋能白领工作,而非引发新的信任危机。
截至发稿,已有美国参议员呼吁联邦贸易委员会(FTC)对OpenAI的数据收集行为展开调查,TechCrunch将持续关注事件进展。