安卓版微软 Copilot 集成“MSN 资讯”,探索盈利新招

事件概述

  • 时间:4月6日
  • 事件:一项新研究为OpenAI使用受版权保护内容训练其人工智能模型的指控提供了依据。
  • 背景:OpenAI面临由作家、程序员等版权持有者提起的诉讼,指控其未经许可使用他们的作品(包括书籍、代码库等)来开发模型。

研究详情

  • 研究团队:由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员共同撰写。
  • 研究方法:提出了一种新方法,用于识别通过API提供服务的模型所“记忆”的训练数据。该方法依赖于“高意外性”词汇,即在大量作品中显得不常见的词汇。
  • 测试对象:包括GPT-4和GPT-3.5在内的几种OpenAI模型。
  • 测试过程:从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试“猜测”被屏蔽的词汇。
  • 测试结果
    • GPT-4显示出记住了流行小说书籍的部分内容,包括一个包含受版权保护电子书样本的数据集BookMIA中的书籍。
    • GPT-4也记住了《纽约时报》文章的部分内容,尽管比例相对较低。

研究意义

  • 揭示问题:这些发现揭示了模型可能接受训练的“有争议的数据”,即可能包含受版权保护的内容。
  • 法律争议:尽管OpenAI一直声称其享有合理使用的抗辩理由,但原告方认为美国版权法中并无针对训练数据的豁免条款。

OpenAI的立场与行动

  • 立场:OpenAI一直倡导放宽对使用受版权保护数据开发模型的限制。
  • 行动
    • 已达成一些内容许可协议。
    • 提供了允许版权所有者标记不希望其用于训练的内容的退出机制。
    • 游说多个政府将围绕人工智能训练方法的“合理使用”规则编入法典。

总结
这项新研究通过一种新方法揭示了OpenAI模型可能记忆了受版权保护的内容,为正在进行的诉讼提供了依据。OpenAI则继续倡导放宽相关限制,并采取措施应对潜在的版权问题。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...