(资料图片)
导读 OpenAI表示,网站运营商可以明确禁止其GPTBot爬虫程序出现在其网站的Robots.txt文件上,或阻止其IP地址。OpenAI表示:使用GPTBot用户代理抓...OpenAI表示,网站运营商可以明确禁止其GPTBot爬虫程序出现在其网站的Robots.txt文件上,或阻止其IP地址。OpenAI表示:“使用GPTBot用户代理抓取的网页可能会被用于改进未来的模型,并被过滤以删除需要付费专区访问、已知会收集个人身份信息(PII)或包含违反我们政策的文本的来源。”在博客文章中。对于不符合排除标准的来源,“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,并提高其总体功能和安全性。”
阻止GPTBot可能是OpenAI允许互联网用户选择不将其数据用于训练其大型语言模型的第一步。在此之前,人们曾尝试创建一个将内容排除在训练之外的标志,例如DeviantArt去年构思的“NoAI”标签。它不会追溯性地删除以前从ChatGPT训练数据中的站点抓取的内容。
互联网为OpenAI的GPT模型和Google的Bard等大型语言模型提供了大量的训练数据。然而,OpenAI不会确认其数据是否通过社交媒体帖子、受版权保护的作品获取,或者从互联网的哪些部分抓取信息。用于人工智能训练的数据来源变得越来越有争议。Reddit和Twitter等网站已推动打击人工智能公司免费使用其用户帖子的行为,而作者和其他创意人士则因涉嫌未经授权使用其作品而提起诉讼。上个月,立法者还在几场有关人工智能监管的参议院听证会上讨论了数据隐私和同意问题。
据Axios报道,Adobe等公司提出了通过反冒充法将数据标记为不用于训练的想法。包括OpenAI在内的人工智能公司与白宫签署了一项协议,开发一种水印系统,让人们知道某些东西是否是由人工智能生成的,但没有承诺停止使用互联网数据进行训练。
免责声明:本文由用户上传,如有侵权请联系删除!