AI公司处理数据困难，引发版权及道德问题-电子发烧友网

本周，两家知名媒体——《华尔街日报》和《纽约时报》对AI公司在获取优质训练数据时遇到的困境进行了深入关注。值得注意的是，报道中提到了关于AI版权法模糊不清的灰色地带。

通过开发Whisper音频转录模型，OpenAI取得了一项突破性进展，成功转录了超过100万个小时的YouTube视频用于训练GPT-4大型语言模型。其实施的这一过程因涉及版权问题而存在严重法律风险，但OpenAI仍坚持为技术创新设定开拓者的姿态。

另一位受访者——《泰晤士报》，通过揭露OpenAI总裁Greg Brockman积极参与YouTube视频收集工作的事实，强调此类操作的合法性问题。然而，OpenAI宣布将严格遵守相关法规，谨慎对待每一次行动。为了持续发展，OpenAI正不断尝试从各种渠道获取有益的数据。

据OpenAI发言人Lindsay Held发表的声明显示，每个模型都在经过精心设计后配备了独特的数据集，目的在于让它们更准确地理解这个世界，能始终保持强大的研发能力。Notably， the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.

相比之下，谷歌对此事持有不同看法。谷歌不认同未经授权就抓取和下载YouTube内容的行为，同时指出，谷歌的robots.txt文件和服务条款坚决禁止此类行为发生。近段时间，YouTube CEO尼尔·莫汉在接受采访时也警告潜在的侵入者，使用YouTube视频训练AI模型的行为违反了其服务条款。

面对日益激烈的竞争环境，Meta公司同样面临着数据可用性问题。公司AI部门为了提升自身竞争力，甚至开始考虑未经授权使用版权作品，尤其是在面临无法获得足够训练数据之际。维持可持续发展已经成为了当下AI科技行业的当务之急。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
575

浏览量
11343
GPT

GPT

+关注

关注
0

文章
372

浏览量
16962
OpenAI

OpenAI

+关注

关注
9

文章
1249

浏览量
10279

搜索历史

AI公司处理数据困难，引发版权及道德问题

评论