只为训练AI 传OpenAI转录百万小时YT影片
随着人工智能(AI)训练数据的枯竭,尽管面临着道德和版权问题的挑战,AI巨头OpenAI仍选择使用YouTube视频来训练其AI,这一做法引发了广泛争议。据透露,为了训练其最尖端的大型语言模型GPT-4,OpenAI通过Whisper音频转录模型,转录了超过100万小时的YouTube视频内容。
数据枯竭的困境
《纽约时报》报道指出,OpenAI在2021年已经耗尽了可用的高质量数据资源,并在资源枯竭后探讨了转录YouTube视频、播客和有声读物的策略。OpenAI发言人Lindsay Held在回应相关询问时强调,公司正在致力于构建“独特”的数据集,这些数据集来源于包括公开资料和合作伙伴在内的多种渠道。此外,公司还在探索生成合成数据的可能性。
法律层面的争议
尽管OpenAI意识到这一做法在法律上可能存在争议,但公司仍秉持“合理使用”的原则继续推进。值得注意的是,OpenAI总裁Greg Brockman亲自参与了视频内容的收集过程。而YouTube首席执行官Neal Mohan则表示,他并不清楚OpenAI是否正在使用YouTube内容来训练其视频生成器Sora,但如果真的如此,这将“明显违反”YouTube的服务条款。
Google的立场
作为YouTube的所有者,Google也在使用部分YouTube视频来训练其AI平台Gemini,但前提是平台上的个人创作者在合同中已明确同意。Google表示,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容。当存在明确的法律或技术依据时,我们将对OpenAI采取技术和法律措施,以防止此类未经授权的使用。”
AI训练数据的难题
随着AI行业的迅猛发展,科技公司使用哪些内容来训练AI模型的争议日益加剧。许多艺术家和创作者认为,这些公司在未经他们许可的情况下,不得使用其受版权保护的作品。除了Google和OpenAI外,因剑桥分析丑闻而受限的Meta也面临着AI训练数据可用性的限制,无法自由使用消费者数据。据报道,Meta正在采取一系列措施,包括支付图书许可费用和直接收购大型出版商等,以应对这一挑战。