Apple und andere Tech-Giganten sorgen bei YouTubern für Unmut. Offenbar haben sie ihre KI-Modelle massenhaft mit Videos von tausenden YouTubern trainiert, ohne deren Erlaubnis einzuholen. Die betroffenen Unternehmen äußern sich nicht zu den Vorwürfen – und das wohl aus gutem Grund.
Moderne große Sprachmodelle verfügen heute über umfangreiches Wissen über die Welt, das sie durch riesige Datensätze erlangt haben, die zu ihrer Schulung verwendet wurden. Für Unternehmen hinter Technologien wie ChatGPT sind Daten das wertvollste Gut. Schon zuvor gab es brisante Fragen bezüglich der Datenverwendung beim Training von Sprachmodellen.
Nun haben mehrere Unternehmen den Ärger großer YouTube-Kanäle auf sich gezogen. Demnach sollen Anthropic, Nvidia, Apple und Salesforce ihre Modelle mit riesigen Datenmengen trainiert haben, die unter anderem von großen YouTube-Kanälen stammten.
Transkripte für das KI-Training verwendet
Dabei wurden häufig separat hochgeladene Untertiteldateien abgesaugt und in die Trainingsdatensätze eingespeist. Vorgefertigte GPT-Derivate, die YouTube-Videos zusammenfassen, arbeiten auf ähnliche Weise. Statt die Videos direkt auszuwerten, erstellen sie eine Zusammenfassung basierend auf der Untertiteldatei, sofern verfügbar.
Laut einem Bericht des Magazins Wired wurden Untertitel von 173.536 Videos gesammelt, die Daten von mehr als 48.000 Kanälen umfassen.
Unter den betroffenen Channel-Betreibern finden sich prominente Namen wie Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver und Jimmy Kimmel.
Das automatisierte, massenhafte Sammeln und Weiterverwenden von Daten ist laut den Statuten von YouTube eigentlich untersagt. Ob Apple und die anderen Unternehmen tatsächlich rechtliche Konsequenzen von YouTube oder den Kanalbetreibern zu befürchten haben, ist noch unklar. Der Streit um diese Problematik ist jedoch nun öffentlich.