本周,两家知名媒体——《华尔街日报》和《纽约时报》对AI公司在获取优质训练数据时遇到的困境进行了深入关注。值得注意的是,报道中提到了关于AI版权法模糊不清的灰色地带。
通过开发Whisper音频转录模型,OpenAI取得了一项突破性进展,成功转录了超过100万个小时的YouTube视频用于训练GPT-4大型语言模型。其实施的这一过程因涉及版权问题而存在严重法律风险,但OpenAI仍坚持为技术创新设定开拓者的姿态。
另一位受访者——《泰晤士报》,通过揭露OpenAI总裁Greg Brockman积极参与YouTube视频收集工作的事实,强调此类操作的合法性问题。然而,OpenAI宣布将严格遵守相关法规,谨慎对待每一次行动。为了持续发展,OpenAI正不断尝试从各种渠道获取有益的数据。
据OpenAI发言人Lindsay Held发表的声明显示,每个模型都在经过精心设计后配备了独特的数据集,目的在于让它们更准确地理解这个世界,能始终保持强大的研发能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.
相比之下,谷歌对此事持有不同看法。谷歌不认同未经授权就抓取和下载YouTube内容的行为,同时指出,谷歌的robots.txt文件和服务条款坚决禁止此类行为发生。近段时间,YouTube CEO尼尔·莫汉在接受采访时也警告潜在的侵入者,使用YouTube视频训练AI模型的行为违反了其服务条款。
面对日益激烈的竞争环境,Meta公司同样面临着数据可用性问题。公司AI部门为了提升自身竞争力,甚至开始考虑未经授权使用版权作品,尤其是在面临无法获得足够训练数据之际。维持可持续发展已经成为了当下AI科技行业的当务之急。
-
语言模型
+关注
关注
0文章
570浏览量
11265 -
GPT
+关注
关注
0文章
368浏览量
16728 -
OpenAI
+关注
关注
9文章
1238浏览量
9829
发布评论请先 登录
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战
AI Cube如何导入数据集?
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
成都汇阳投资关于芯片+AI 眼镜核心公司
海思SD3403边缘计算AI数据训练概述
适用于数据中心和AI时代的800G网络
泛林集团连续第三年被Ethisphere评为“全球最具商业道德企业”之一
《AI Agent 应用与项目实战》----- 学习如何开发视频应用
当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......
端侧 AI 音频处理器:集成音频处理与 AI 计算能力的创新芯片
AI赋能边缘网关:开启智能时代的新蓝海
涂鸦智能集成Mistral AI大模型,加速欧洲AI硬件革新
SPEA创新实践:AI芯片混合信号测试仪

AI公司处理数据困难,引发版权及道德问题
评论