0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

和AI聊天,自然语言模型 GPT-2可能会推出个人信息

工程师邓生 来源: 凹非寺 作者:贾浩楠 萧箫 2021-01-02 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

有时候,AI 说真话比胡言乱语更可怕。

本来只是找AI聊聊天,结果它竟然抖出了某个人的电话、住址和邮箱?

没错,只需要你说出一串“神秘代码”:“East Stroudsburg Stroudsburg……”

2d9c0259bfc746e2906b7123c9c64a1b.png

自然语言模型 GPT-2就像是收到了某种暗号,立刻“送出”一套 个人信息:姓名、电话号码,还有地址、邮箱和传真 (部分信息已打码)。

这可不是GPT-2瞎编的,而是真实存在的个人信息!这些个人信息,全部来自于网上。

原来是因为GPT-2靠网上扒取的数据来训练。

本以为,这些个性化数据会在训练时已经湮没,没想到只要一些特殊的唤醒词,就突然唤出了AI“内心深处的记忆”。

想象一下,如果你的个人隐私被科技公司爬取,那么用这些数据训练出的模型,就可能被别有用心的人逆向还原出你的地址、电话……

真是细思恐极!

这是来自谷歌、苹果、斯坦福、UC伯克利、哈佛、美国东北大学、OpenAI七家公司和机构的学者们调查的结果。

df1aadfb17744c9893a49bb699754152.png

调查发现,这并不是偶然现象,在随机抽取的1800个输出结果中,就有 600个左右的结果还原出了训练数据中的内容,包括新闻、日志、代码、 个人信息等等。

他们还发现,语言模型越大,透露隐私信息的概率似乎也越高。

不光是OpenAI的GPT模型,其它主流语言模型 BERT、 RoBERTa等等,也统统中招。

所有的漏洞和风险,都指向了 大型语言模型的先天不足。

而且,目前几乎无法完美解决。

吃了的,不经意又吐出来

个人敏感信息的泄露,是因为语言模型在预测任务输出结果时,本身就会出现 数据泄露或 目标泄露。

所谓泄露,是指任务结果随机表现出某些训练数据的 特征。

形象地说,语言模型“记住了”见过的数据信息,处理任务时,把它“吃进去”的训练数据又“吐了出来”。

973e35bcfe484dbc8dc938b3bddf627b.png

至于具体记住哪些、吐出来多少、什么情况下会泄露,并无规律。

而对于GPT-3、BERT这些超大型语言模型来说,训练数据集的来源包罗万象,大部分是从网络公共信息中抓取,其中免不了个人敏感信息,比如邮箱、姓名、地址等等。

研究人员以去年面世的GPT-2模型作为研究对象,它的网络一共有15亿个参数。

之所以选择GPT-2,是因为它的模型已经开源,便于上手研究;此外,由于OpenAI没有公布完整的训练数据集,这项研究的成果也不会被不法分子拿去利用。

4c0434eb1cf5420db9e9981611cab129.gif

团队筛查了模型生成的数百万个语句,并预判其中哪些是与训练数据高度相关的。

这里,利用了语言模型的另一个特征,即 从训练数据中捕获的结果,置信度更高。

也就是说,当语言模型在预测输出结果时,它会更倾向于用训练时的数据来作为答案。 (训练时看到啥,预测时就想说啥)

在正常训练情况下,输入“玛丽有只……”时,语言模型会给出“小羊羔”的答案。

但如果模型在训练时,偶然遇到了一段重复“玛丽有只熊”的语句,那么在“玛丽有只……”问题的后面,语言模型就很可能填上“熊”。

而在随机抽取的1800个输出结果中,约有600个结果体现出了训练数据中的内容,包括新闻、日志、代码、个人信息等等。

4bd5b9144a454166b61ff7b57ee3fa1f.png

其中有些内容只在训练数据集中出现过寥寥几次,有的甚至只出现过一次,但模型依然把它们学会并记住了。

1.24亿参数的GPT-2 Small如此,那么参数更多的模型呢?

团队还对拥有15亿参数的升级版GPT-2 XL进行了测试,它对于训练数据的记忆量是GPT-2 Small的 10倍。

实验发现,越大的语言模型,“记忆力”越强。GPT-2超大模型比中小模型更容易记住出现次数比较少的文本。

0728d1a76f054c59945be34d326601c2.png

也就是说,越大的模型,信息泄露风险越高。

那么,团队用的什么方法,只利用模型输出的文本,就还原出了原始信息呢?

训练数据提取攻击

此前泄露隐私没有引起重视的原因,是因为学术界普遍认为与模型 过拟合有关,只要避免它就行。

7c443fc9d1cb48a1b64c857849e4a00c.gif

但现在,另一种之前被认为“停留在理论层面”的隐私泄露方法,已经实现了。

这就是 训练数据提取攻击(training data extraction attacks)方法。

由于模型更喜欢“说出原始数据”,攻击者只需要找到一种筛选输出文本的特殊方法,反过来预测模型“想说的数据”,如隐私信息等。

这种方法根据语言模型的输入输出接口,仅通过 某个句子的前缀,就完整还原出原始数据中的某个字符串,用公式表示就是这样:

01c3c27581c94db8874e8e020c8f25c4.png

只要能想办法从输出还原出原始数据中的某一字符串,那么就能证明,语言模型会通过API接口泄露个人信息。

下面是训练数据提取攻击的方法:

fc236033f0744239b78162a32d9a4852.png

从GPT-2中,根据256个字,随机生成20万个样本,这些样本拥有某些共同的前缀 (可能是空前缀)。

在那之后,根据6个指标之一,对每个生成的样本进行筛选,并去掉重复的部分,这样就能得到一个“类似于原始数据”的样本集。

这6个指标,是用来衡量攻击方法生成的文本效果的:

困惑度: GPT-2模型的困惑度(perplexity)

Small: 小型GPT-2模型和大型GPT-2模型的交叉熵比值

Medium: 中型GPT-2模型和大型GPT-2模型的交叉熵比值

zlib: GPT-2困惑度(或交叉熵)和压缩算法熵(通过压缩文本计算)的比值

Lowercase: GPT-2模型在原始样本和小写字母样本上的困惑度比例

Window: 在最大型GPT-2上,任意滑动窗口圈住的50个字能达到的最小困惑度

其中, 困惑度是交叉熵的指数形式,用来衡量语言模型生成正常句子的能力。至于中型和小型,则是为了判断模型大小与隐私泄露的关系的。

然后在评估时,则根据每个指标,比较这些样本与原始训练数据,最终评估样本提取方法的效果。

39af8c1f771a4ad989f4e34d23bb8ba8.png

这样的攻击方式,有办法破解吗?

大语言模型全军覆没?

很遗憾,对于超大规模神经网络这个“黑箱”,目前没有方法彻底消除模型“记忆能力”带来的风险。

当下一个可行的方法是 差分隐私,这是从密码学中发展而来的一种方法。

73980d2e906e493885c05fb05b3388c0.png

简单的说,差分隐私是一种公开共享数据集信息的系统,它可以描述数据集内样本的模式,同时不透露数据集中某个样本的信息。

差分隐私的基本逻辑是:

如果在数据集中进行任意的单次替换的影响足够小,那么查询结果就不能用来推断任何单个个体的信息,因此保证了隐私。

比如现在有两个数据集D和D’, 它们有且仅有一条数据不一样,这样的数据集互为 相邻数据集。

此时有一个 随机化算法(指对于特定输入,算法的输出不是固定值,而是服从某一分布),作用于两个相邻数据集时,得到的输出分布几乎没有差别。

推广一步,如果这个算法作用于任何相邻数据集,都能得到某种特定输出,那么就可以认为这个算法达到了差分隐私的效果。

直白地说,观察者难以通过输出结果察觉出数据集微小的变化,从而达到保护隐私的目的。

那如何才能实现差分隐私算法呢?

最简单的方法是加噪音,也就是在输入或输出上加入随机化的噪音,将真实数据掩盖掉。

实际操作中,比较常用的是加 拉普拉斯噪音(Laplace noise)。由于拉普拉斯分布的数学性质正好与差分隐私的定义相契合,因此很多研究和应用都采用了此种噪音。

ac5c0ba1eebb4a47afb1ccfef322717c.gif

而且由于噪音是为了掩盖一条数据,所以很多情况下数据的多少并不影响添加噪音的量。

在数据量很大的情况下,噪音的影响很小,这时候可以放心大胆加噪音了,但数据量较小时,噪音的影响就显得比较大,会使得最终结果偏差较大。

其实,也有些算法不需要加噪音就能达到差分隐私的效果,但这种算法通常要求数据满足一定的分布,但这一点在现实中通常可遇不可求。

所以,目前并没有一个保证数据隐私的万全之策。

研究团队之所以没使用GPT-3进行测试,是因为GPT-3目前正火,而且官方开放API试用,贸然实验可能会带来严重的后果。

而GPT-2的API已经显露的风险,在这篇文章发布后不久,一名生物学家在Reddit上反馈了之前遇到的“bug”:输入三个单词,GPT-2完美输出了一篇论文的参考文献。

906a29848f6443fab3e5519edc55aed1.png

鉴于BERT等模型越来越多地被科技公司使用,而科技公司又掌握着大量用户隐私数据。

如果靠这些数据训练的AI模型不能有效保护隐私,那么后果不堪设想……

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 信息安全
    +关注

    关注

    5

    文章

    714

    浏览量

    40700
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302609
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    14026
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一场长达1小时的线上发布正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:<b class='flag-5'>AI</b>领域的重大飞跃

    乐鑫信息推出ESP-Claw AI智能体框架,物联网进入“聊天造物”时代

    乐鑫信息科技正式推出ESP-Claw AI智能体框架,该框架以Chat Coding(聊天造物)为核心,突破传统物联网开发边界。通过将Agent Runtime下沉至边缘芯片,ESP-
    的头像 发表于 04-23 17:26 603次阅读
    乐鑫<b class='flag-5'>信息</b><b class='flag-5'>推出</b>ESP-Claw <b class='flag-5'>AI</b>智能体框架,物联网进入“<b class='flag-5'>聊天</b>造物”时代

    Transformer 入门:从零理解 AI模型的核心原理

    的\"积木\"拼出更多的词 GPT-2 的词汇表有 50,257 个 Token,就像有 50,257 块乐高积木 中文的例子: arduino 体验AI代码助手 代码解读 复制代码 原文
    发表于 02-10 16:33

    解锁谷歌FunctionGemma模型的无限潜力

    在智能体 AI 领域,工具调用能力是将自然语言转化为可执行软件操作的关键。此前,我们发布了专门针对函数调用而特别优化的 Gemma 3 270M 模型版本 FunctionGemma。该模型
    的头像 发表于 02-04 11:30 441次阅读
    解锁谷歌FunctionGemma<b class='flag-5'>模型</b>的无限潜力

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,它会教计算机如何理解口头和书面形式的人类语言自然语言处理将计算语言学与机器学习
    的头像 发表于 01-29 14:01 600次阅读
    <b class='flag-5'>自然语言</b>处理NLP的概念和工作原理

    云知声论文入选自然语言处理顶EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知声提交的《面向门诊病历生成的高质量医患对话合成技术
    的头像 发表于 11-10 17:30 904次阅读
    云知声论文入选<b class='flag-5'>自然语言</b>处理顶<b class='flag-5'>会</b>EMNLP 2025

    如何在TPU上使用JAX训练GPT-2模型

    如果您对如何使用 JAX 从头开始构建语言模型感到好奇,那么本文非常适合您。我们在 2025 年 Google Cloud Next 大会上举办了一场关于此主题的研讨,并获得了一些很好的反馈,我们也为所有无法参会的开发者编写了
    的头像 发表于 09-03 11:39 1821次阅读
    如何在TPU上使用JAX训练<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    ifconfig、gpio write 1 1)。 工作流程 : MCP客户端发送自然语言指令到 HZ-T536 的 MCP 服务器; MCP 服务器利用DeepSeek的大语言模型能力,生成
    发表于 08-23 13:10

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的头像 发表于 08-15 20:34 2501次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的
    的头像 发表于 08-07 14:13 1.5w次阅读

    HarmonyOS AI辅助编程工具(CodeGenie)代码续写

    利用AI模型分析并理解开发者在代码编辑区的上下文信息自然语言描述信息,智能生成符合上下文的ArkTS或C++代码片段。 一、使用约束 建
    发表于 07-15 16:15

    《仿盒马》app开发技术分享-- 个人信息页(23)

    技术栈 Appgallery connect 开发准备 上一节我们实现了个人中心的业务逻辑,实现了个人信息修改后的动态更换,而且实现了一个静态的头像选择弹窗,但是这个弹窗我们并没有使用。这一节我们在
    发表于 06-30 13:40

    ESP-Brookesia:融合 AI模型,全新一代 GUI 开发与管理平台

    乐鑫信息科技(688018.SH)推出ESP-Brookesia——一款专为物联网设备打造、集成AI交互能力的UI开发与管理框架。ESP-Brookesia深度融合AI
    的头像 发表于 06-05 18:08 1089次阅读
    ESP-Brookesia:融合 <b class='flag-5'>AI</b> 大<b class='flag-5'>模型</b>,全新一代 GUI 开发与管理平台

    云知声四篇论文入选自然语言处理顶ACL 2025

    结果正式公布。云知声在此次国际学术盛会中表现卓越,共有4篇论文被接收,其中包括2篇主论文(Main Paper)和2篇Findings。入选的4篇论文聚焦大语言
    的头像 发表于 05-26 14:15 1457次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b>处理顶<b class='flag-5'>会</b>ACL 2025

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1449次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>