事件概述:
- 时间:4月6日
- 事件:一项新研究为OpenAI使用受版权保护内容训练其人工智能模型的指控提供了依据。
- 背景:OpenAI面临由作家、程序员等版权持有者提起的诉讼,指控其未经许可使用他们的作品(包括书籍、代码库等)来开发模型。
研究详情:
- 研究团队:由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员共同撰写。
- 研究方法:提出了一种新方法,用于识别通过API提供服务的模型所“记忆”的训练数据。该方法依赖于“高意外性”词汇,即在大量作品中显得不常见的词汇。
- 测试对象:包括GPT-4和GPT-3.5在内的几种OpenAI模型。
- 测试过程:从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试“猜测”被屏蔽的词汇。
- 测试结果:
- GPT-4显示出记住了流行小说书籍的部分内容,包括一个包含受版权保护电子书样本的数据集BookMIA中的书籍。
- GPT-4也记住了《纽约时报》文章的部分内容,尽管比例相对较低。
研究意义:
- 揭示问题:这些发现揭示了模型可能接受训练的“有争议的数据”,即可能包含受版权保护的内容。
- 法律争议:尽管OpenAI一直声称其享有合理使用的抗辩理由,但原告方认为美国版权法中并无针对训练数据的豁免条款。
OpenAI的立场与行动:
- 立场:OpenAI一直倡导放宽对使用受版权保护数据开发模型的限制。
- 行动:
- 已达成一些内容许可协议。
- 提供了允许版权所有者标记不希望其用于训练的内容的退出机制。
- 游说多个政府将围绕人工智能训练方法的“合理使用”规则编入法典。
总结:
这项新研究通过一种新方法揭示了OpenAI模型可能记忆了受版权保护的内容,为正在进行的诉讼提供了依据。OpenAI则继续倡导放宽相关限制,并采取措施应对潜在的版权问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...