T
traeai
登录
返回首页
MIT Technology Review

AI聊天机器人正在泄露人们的真实电话号码

7.8Score
AI聊天机器人正在泄露人们的真实电话号码

TL;DR · AI 摘要

AI聊天机器人正在泄露用户真实电话号码,因训练数据包含个人身份信息(PII),且目前缺乏有效阻止机制。过去七个月,相关隐私投诉激增400%。

核心要点

  • DeleteMe数据显示,AI相关隐私咨询在7个月内增长400%,其中55%指向ChatGPT。
  • 谷歌Gemini多次错误提供以色列开发者和个人的真实手机号作为客服联系方式。
  • 专家警告生成式AI使用含PII的训练数据是泄露主因,但用户难以申请删除或屏蔽。

结构提纲

按章节快速跳转。

  1. 多个用户报告AI聊天机器人泄露其真实电话号码,导致被陌生人误拨。

  2. 以色列开发者和华盛顿大学博士生均遭遇Gemini错误暴露个人联系方式。

  3. 训练数据集中包含大量个人身份信息(PII)是泄露的根本原因。

  4. 目前没有便捷方式让用户请求从AI模型中删除其个人信息。

  5. DeleteMe报告AI相关隐私咨询量在七个月内增长400%。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI聊天机器人泄露真实电话号码
    • 泄露原因
      • 训练数据含PII
      • 模型无法过滤敏感信息
    • 实际影响
      • 用户遭陌生人骚扰
      • 错误客服指引
    • 行业响应
      • DeleteMe咨询量+400%
      • 缺乏删除机制

金句 / Highlights

值得收藏与分享的关键句。

#生成式AI#隐私保护#Google Gemini#PII#数据安全
打开原文

人们报告称,他们的个人信息被谷歌AI泄露——而且似乎没有简单的方法可以阻止这种情况发生。

一位红迪用户最近在Reddit上写道,他“非常需要帮助”:大约一个月的时间里,他的电话被“陌生人”拨打,这些人“正在寻找律师、产品设计师或锁匠”。来电者似乎是由于谷歌的生成式AI误导而产生的。

三月份,以色列的一位软件开发者在WhatsApp上收到了一条消息,原因是谷歌的聊天机器人Gemini提供了错误的客户服务指示,其中包括了他的电话号码。

四月份,华盛顿大学的一名博士生在玩Gemini时,让它泄露了同事的个人手机号码。

AI研究人员和在线隐私专家长期以来一直警告说,生成式AI对个人隐私构成了诸多危险。这些案例给我们提供了一个新的担忧场景:生成式AI暴露人们的真手机号码。(这位红迪用户没有回应多次采访请求,我们无法独立验证他的故事。)

专家表示,这些隐私失误最有可能是因为个人可识别信息(PII)被用作训练数据,尽管确切的机制尚不清楚,导致真实电话号码出现在AI生成的回答中。但不管原因是什么,这对接收方来说都不是一件乐事——更令人担忧的是,似乎没有人能阻止这种情况的发生。

AI相关隐私请求增加400%

很难知道AI聊天机器人泄露人们电话号码的情况有多频繁,但专家认为这种情况发生的频率远高于公开报道的数量。

帮助客户从互联网上删除个人信息的公司DeleteMe表示,在过去七个月里,关于生成式AI的客户查询增加了400%,达到数千次。Shavell表示,“这些查询具体提到ChatGPT、Claude、Gemini或其他生成式AI工具。”他说,其中55%的关于生成式AI的担忧涉及ChatGPT,20%涉及Gemini,15%涉及Claude,其余10%涉及其他AI工具。(_MIT Technology Review_拥有DeleteMe的商业订阅。)

Shavell表示,客户投诉生成式语言模型(LLMs)泄露个人信息通常有两种形式:一是“有人问聊天机器人一些无关紧要的问题,得到了准确的家庭地址、电话号码、家人姓名或雇主详情。”另一种情况是,客户可能会遇到并报告他人个人信息的泄露,当“聊天机器人生成了看似合理的但错误的联系信息。”

这与以色列软件工程师丹尼尔·亚伯拉罕的经历相符。三月中旬,他说,一个陌生人在一个未知号码上发来了一条奇怪的WhatsApp消息,询问他在PayBox(一家以色列支付应用)上的账户问题。

他在一封电子邮件中写道:“我以为这是垃圾邮件——试图捉弄我的人。”

但他问对方是如何找到他的电话号码的,对方给他发了一张Gemini提供的PayBox客服联系方式截图——泄露了他的电话号码。亚伯拉罕并不在PayBox工作,PayBox也没有WhatsApp客服号码,该公司的一位客服代表确认了这一点。

后来,亚伯拉罕向Gemini询问如何联系PayBox,它又生成了另一个陌生人的WhatsApp号码。当我最近询问时,Gemini再次回复了一个以色列电话号码——这个号码不属于PayBox,而是与PayBox合作的一个信用卡公司。

截图:谷歌Gemini向《MIT Technology Review》提供PayBox的错误电话号码。

亚伯拉罕与陌生人的对话很快结束,但他表示担心其他潜在对话可能会迅速变得糟糕,包括“骚扰或其他不良互动”。他说:“如果我为了‘解决’那个客服问题而要钱呢?”

为了尝试弄清楚发生了什么,亚伯拉罕在他的手机上进行了常规的谷歌搜索,发现他的电话号码曾在2015年被分享过一次,当时是在一个类似于Quora的本地网站上。虽然他不确定是谁在那里发布的,但这可能解释了为什么十多年后Gemini会重复使用这个电话号码。

Imperfect Measures

聊天机器人如Gemini、Open AI的ChatGPT以及Anthropic的Claude都是基于训练于网络上大量数据集上的LLM构建的。这些数据集往往包含数亿个个人身份信息(PII)。例如,我们去年报道,例如,用于训练图像生成模型的大型开源数据集DataComp CommonPool中包括了简历、驾照和信用卡的副本。

随着公共数据“耗尽”,AI公司正在寻找新的高质量训练数据来源,这包括来自数据经纪人和人们搜索网站的信息。例如,据加利福尼亚州数据经纪人注册表显示,该州运营的数据经纪人中有31家(共578家)在过去一年内报告称,他们曾“向开发生成式AI系统或模型的开发者共享或出售消费者数据”。

此外,模型已知会记忆并完全复制训练数据集中的数据——最近的研究表明,不仅频繁出现的数据更有可能被记忆。

不完善的措施

现在,构建LLM时通常会在设计中加入护栏来限制某些输出,从旨在识别并防止聊天机器人发布PII的内容过滤器到Anthropic对Claude的指示,要求选择包含“最少他人个人、私人或机密信息”的响应。

但正如华盛顿大学研究隐私与技术的两名博士生最近亲眼所见,这些防护措施并不总是有效。

“有一天,我在玩Gemini时搜索了我的朋友兼合作者Yael Eiger的名字,”梅拉伊·格里菲斯说。“我输入了‘Yael Eiger 联系方式’,Gemini提供了一份Eiger的研究概览,这是我期待的,但Gemini还提供了她的个人电话号码。”“这令人震惊,”格里菲斯说。

当她看到Gemini的结果时,Eiger记得她在前一年确实在网上分享了自己的电话号码,是为了参加一个科技研讨会。但她没想到它会如此明显地出现在互联网上。

你的个人身份信息是否已被生成式AI揭示?请通过Signal联系记者eileenguo.15或发送邮件至tips@technologyreview.com。

“信息对一个受众群体是可访问的,而Gemini又将其公开给所有人”感觉完全不同,Eiger说,尤其是当她在正常Google搜索结果中找到了这些信息时。

“这严重下降了,”格里菲斯证实道。“如果我只是浏览Google搜索结果,我根本找不到它。”(我上个月早些时候尝试了相同的提示,在Gemini最初拒绝后,工具也给了我Eiger的号码。)

这次经历之后,Eiger、格里菲斯和另一名华盛顿大学的博士生安娜-玛利亚·古戈吉耶娃决定测试ChatGPT,看看它会如何揭露一位教授的信息。

起初,OpenAI的护栏起作用了,ChatGPT回应称信息不可用。但在同一回复中,聊天机器人建议,“如果你想深入了解,我可以尝试一种更具‘调查性’的方法。”他们的询问只需帮助“缩小范围”,ChatGPT说,可以通过提供教授可能居住的“街区猜测”或教授家中可能的共同所有者姓名来实现。ChatGPT继续说道:“通常是唯一能揭示更新或故意不显眼的房产记录的方式。”

学生们提供了这些信息,导致ChatGPT产生了教授的住址、购房价格以及配偶姓名,这些信息来自城市房地产记录。

(OpenAI代表塔雅·克里斯滕森表示,除非看到截图或知道学生测试的是哪个模型,否则无法评论这一情况。但我们指出,许多用户可能不知道他们在ChatGPT界面中使用的具体模型。对于关于PII暴露的问题,她发送了描述OpenAI如何处理隐私,包括过滤PII的文档链接。)

这揭示了一个关键问题,DeleteMe的Shavell说,AI公司“可以构建护栏,但其聊天机器人也被设计得既有效又能够回答客户问题。”

这种暴露问题不仅限于Gemini或ChatGPT。去年,未来主义杂志发现 ,如果你在xAI的聊天机器人Grok中输入“[名字]地址”,几乎所有的案例中,它不仅提供了住宅地址,还经常提供了该人的电话号码、工作地址以及与相似名字的人的地址。(xAI未对此置评。)

没有明确的答案

解决这个问题并没有简单的办法——没有简单的方法来验证某个人的个人信息是否存在于某个模型的训练集中,也没有办法强制模型移除PII。

斯坦福大学人工智能伦理中心隐私与数据研究员詹妮弗·金认为,理想情况下,个体消费者应该能够要求移除自己的PII。但通常这仅适用于人们直接给予公司的数据——比如与聊天机器人互动时,金解释道。

“I don’t know if Google even has the infrastructure… to say to me, ‘Yes, we have your data in our training data, we can summarize what we know about you, and then we can delete or correct things that are wrong or things that you don't want in there,’” she says.

Existing privacy legislation, such as the California Consumer Privacy Act or Europe’s GDPR, does not cover the “publicly available” information that has already been scraped and used to train LLMs, especially since much of this is anonymized (though multiple studies have also shown how easy it is to infer identities and PII from anonymized and pseudonymous data).

As for whether AI companies have ever systematically gone back through data that has already been collected from the public internet and minimized that stuff?, King adds. “No idea.”

The next best solution would be that the companies are “taking out everybody’s phone numbers or all data that resembles [phone numbers],” King says, but “nobody’s been willing to say” they’re doing that.

Hugging Face, a platform that hosts open-source data sets and AI models, has a tool that allows people to search how often a piece of data—like their phone number—has appeared in open-source LLM training data sets, but this does not necessarily represent what has been used to train closed LLMs that power popular chatbots like Claude, ChatGPT, and Gemini. (For example, Eiger’s number did not show up in Hugging Face’s tool.)

Alex Joseph, the head of communications for Gemini apps and Google Labs, did not respond to specific questions, but he said that “the team” is “looking into” the particular cases flagged by MIT Technology Review. He also provided a link to a support document that describes how users can “object to the processing of your personal data” or “ask for inaccurate personal data in Gemini Apps’ responses to be corrected.” The page notes that the company’s response will depend on the privacy laws of your jurisdiction.

OpenAI has a privacy portal that allows people to submit requests to remove their personal information from ChatGPT responses, but notes that it balances privacy requests with the public interest and “may decline a request if we have a lawful reason for doing so.”

Anthropic describes how it uses personal data in model training, but it does not have a clear way for people to request its removal. The company did not respond to a request for comment.

The best option for anyone who wants to protect their private data right now is to “start upstream: get personal data off the public web before it ends up in the next scrape,” says Shavell. Since the start of the year, for instance, California has offered its residents a web portal to request that data brokers delete their information. Still, this doesn’t guarantee that your data hasn’t already been used for training—and will therefore not appear in a chatbot’s response.

The Redditor who received incessant calls posted that he had “submitted an official Legal Removal/Privacy Request to Google, asking them to urgently blacklist my number from their LLM outputs,” but had not yet received a response. He also wrote last month that “the harassment continues daily.”

Abraham, the Israeli software developer, says he contacted Google’s customer service on March 17, the day after his phone number was exposed. He says he did not receive a response until May 4, and it simply asked for documentation that he had already provided.

Meanwhile, inspired by her own exposure on Gemini, Eiger, along with Gilbert and Gueorguieva, is designing a research project to further study what personal information is being surfaced by various AI chatbots—and what they may know, even if they’re not telling us.

Some of that information may “technically be public,” says Gilbert, but chatbots may be altering “the amount of effort you would put into finding” it. Now instead of searching through 10 pages of Google search results, or paying for the information from a data broker site, “does generative AI just lower the barrier to entry to target people?”

_This piece has been updated to clarify OpenAI's response._

AI 可能会生成不准确的信息,请核实重要内容