乌里·加尔教授
ChatGPT席卷了整个世界。发布仅两个月后,它就吸引了1亿活跃用户,成为有史以来增长最快的消费者应用程序。用户被这个工具先进的功能所吸引,并担心它可能在各个领域引发破坏。
一个不太被讨论的问题是ChatGPT对我们每个人的隐私风险。就在昨天,谷歌推出了自己的对话人工智能Bard,其他公司肯定也会效仿。从事人工智能的技术公司已经真正进入了一场军备竞赛。
问题是这场竞赛是由我们的个人数据所推动的。
ChatGPT的基础是一个庞大的语言模型,需要大量数据才能发挥作用并不断改进。模型被训练的数据量越大,它就越能够发现模式,预测接下来会发生什么,并生成合理的文本。
OpenAI是ChatGPT背后的公司,向这个工具系统性地提供了从互联网上系统地抓取的3000亿字的数据:书籍、文章、网站和帖子,其中包括未经同意获得的个人信息。
如果你曾经写过博客文章或产品评论,或在网上评论过文章,有很大可能这些信息已被ChatGPT消费。
那么为什么这会成为一个问题呢?
用于训练ChatGPT的数据收集存在几个问题。
首先,没有人问过我们OpenAI是否可以使用我们的数据。这明显违反了隐私,尤其当数据涉及敏感信息并且可以用来识别我们、我们的家人或我们的位置时。
即使数据是公开可用的,它们的使用也可能违反我们所谓的文本完整性。这是隐私法律讨论中的基本原则,要求个人信息不会超出其最初生产的上下文范围之外。
此外,OpenAI没有为个人提供检查公司是否存储其个人信息或请求删除信息的程序。这是根据欧洲通用数据保护条例(GDPR)的规定的权利-尽管ChatGPT是否符合GDPR要求仍在辩论中。
这种“被遗忘的权利”在信息不准确或误导的情况下尤为重要,而ChatGPT似乎经常出现这种情况。
此外,ChatGPT接受训练的抓取数据可能是专有或受版权保护的。例如,当我使用它时,该工具生成了约瑟夫·赫勒(Joseph Heller)的书《第22条军规》中的前几段文字-这是一种受版权保护的文本。
ChatGPT在生成输出时并不考虑版权保护。在其他地方使用这些输出的任何人可能会无意中抄袭。 最后,OpenAI没有为从互联网上抓取的数据付费。生产这些数据的个人、网站所有者和公司没有得到报酬。 这尤为值得关注,尤其考虑到OpenAI最近被估值为290亿美元,比2021年的价值增加了一倍多。
OpenAI还宣布推出了ChatGPT Plus,这是一个付费订阅计划,将为顾客提供持续访问该工具、更快的响应时间和对新功能的优先访问权。到2024年,这个计划将为预期的10亿美元收入做出贡献。
没有我们的允许,这一切都是不可能的。
另一个隐私风险涉及以用户提示的形式提供给ChatGPT的数据。当我们要求这个工具回答问题或执行任务时,我们可能会无意中透露敏感信息并将其置于公共领域。
比如,一名律师可能要求这个工具审查一份离婚协议草案,或者一名程序员可能会要求它检查一段代码。 合同和代码,再加上产生的论文,现在是ChatGPT数据库的一部分。这意味着它们可以用来进一步训练这个工具,并包含在对其他人提示的回应中。
除此之外,OpenAI收集了广泛的其他用户信息。 根据公司的隐私政策,它收集用户的IP地址、浏览器类型和设置,以及有关用户与网站的互动的数据-包括用户参与的内容类型、使用的功能以及采取的行动。
它还收集关于用户随时间和跨网站的浏览活动的信息。令人担忧的是,OpenAI表示可能将用户的个人信息与未指明的第三方分享,而未事先通知他们的目的是为了实现他们的业务目标。
现在是时候控制一下了吗?
有些专家认为ChatGPT是AI的一个转折点-技术发展的一种认识,其潜在优势尽管如此,我们必须记住OpenAI是一家私人营利公司,其利益和商业需要并不一定与更大的社会需求相一致。
ChatGPT附带的隐私风险应该是一个警示。作为越来越多AI技术的消费者,我们应该非常注意与这类工具分享哪些信息。”