首页 > 资讯

只为训练AI 传OpenAI转录百万小时YT影片

superadmin 12 月 08, 2024 229 0

随着人工智能（AI）训练数据的枯竭，尽管面临着道德和版权问题的挑战，AI巨头OpenAI仍选择使用YouTube视频来训练其AI，这一做法引发了广泛争议。据透露，为了训练其最尖端的大型语言模型GPT-4，OpenAI通过Whisper音频转录模型，转录了超过100万小时的YouTube视频内容。

数据枯竭的困境
《纽约时报》报道指出，OpenAI在2021年已经耗尽了可用的高质量数据资源，并在资源枯竭后探讨了转录YouTube视频、播客和有声读物的策略。OpenAI发言人Lindsay Held在回应相关询问时强调，公司正在致力于构建“独特”的数据集，这些数据集来源于包括公开资料和合作伙伴在内的多种渠道。此外，公司还在探索生成合成数据的可能性。

法律层面的争议
尽管OpenAI意识到这一做法在法律上可能存在争议，但公司仍秉持“合理使用”的原则继续推进。值得注意的是，OpenAI总裁Greg Brockman亲自参与了视频内容的收集过程。而YouTube首席执行官Neal Mohan则表示，他并不清楚OpenAI是否正在使用YouTube内容来训练其视频生成器Sora，但如果真的如此，这将“明显违反”YouTube的服务条款。

Google的立场
作为YouTube的所有者，Google也在使用部分YouTube视频来训练其AI平台Gemini，但前提是平台上的个人创作者在合同中已明确同意。Google表示，“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容。当存在明确的法律或技术依据时，我们将对OpenAI采取技术和法律措施，以防止此类未经授权的使用。”

AI训练数据的难题
随着AI行业的迅猛发展，科技公司使用哪些内容来训练AI模型的争议日益加剧。许多艺术家和创作者认为，这些公司在未经他们许可的情况下，不得使用其受版权保护的作品。除了Google和OpenAI外，因剑桥分析丑闻而受限的Meta也面临着AI训练数据可用性的限制，无法自由使用消费者数据。据报道，Meta正在采取一系列措施，包括支付图书许可费用和直接收购大型出版商等，以应对这一挑战。

标签