FAU-Rechtswissenschaftlerin Prof. Dr. Paulina Pesch zum Fall GEMA versus Open AI
Künstliche Intelligenz ist aktuell allgegenwärtig. Sprachmodelle wie ChatGPT brauchen jedoch Trainingsdaten, deren Nutzung umstritten ist. Denn die Unternehmen verstoßen beim Training ihrer Sprachmodelle häufig insbesondere gegen deutsches und europäisches Recht. Jüngst kam es am Landesgericht München I zu einem wichtigen Urteil im Fall einer Klage der Verwertungsgesellschaft GEMA gegen Open AI. FAU-Rechtswissenschaftlerin Prof. Dr. Paulina Pesch, Juniorprofessur für Bürgerliches Recht, Recht der Digitalisierung, des Datenschutzes und der Künstlichen Intelligenz, erklärt im Interview, worum es in dem Streit genau ging und welche Probleme es beim KI-Training im Datenschutz- und Urheberrrecht gibt.
Am 11.11. kam es im Landgericht München I zu einem Urteil im Streit der GEMA gegen Open AI. Worum ging es in der Verhandlung?
Die GEMA hat OpenAI, die Anbieterin von ChatGPT, wegen der Verwendung von Liedtexten für das Training ihrer KI-Modelle verklagt. Es ging um neun Liedtexte, die OpenAI unstreitig für das Training von zwei früheren Versionen ihres KI-Modells verwendet hat und die diese auf einfache Prompts hin zum Teil und nur leicht verändert ausgegeben haben. Zwei Strophen habe ich selbst vor ein paar Tagen noch aus einem der Modelle extrahieren können.
Die GEMA hat in erster Linie ihre Nutzungsrechte geltend gemacht, die ihr als Verwertungsgesellschaft von den Textdichter:innen eingeräumt wurden. Dabei hat die GEMA argumentiert, Vervielfältigungsstücke der Liedtexte lägen in den KI-Modellen reproduzierbar vor, die Modelle hätten sie sich also „gemerkt“. Weil die Modelle sie auf einfache Prompts hin in Ausgaben erneut vervielfältigen, würden die Liedtexte über die Modelle und auf ihnen basierende Chatbots der Öffentlichkeit zugänglich machen. Das LG München I hat dies zu Recht auch so gesehen und Unterlassungs-, Auskunfts- und Schadensersatzansprüchen der GEMA stattgegeben.
Das Urteil ist beeindruckend geraten. Die Richter:innen sahen sich währenddessen einer Flut zum Teil irreführender Argumente ausgesetzt, haben sich aber vertieft mit der Technologie auseinandergesetzt. Die Bedeutung des Urteils sollte nicht unterschätzt werden, insbesondere weil vielen nicht klar ist, wie viele geschützte Werke sich aus derzeitigen Sprachmodellen extrahieren lassen.
Das Urteil wurde auch in den USA mit großem Interesse erwartet. Warum?
Nahezu alle derzeit relevanten generativen Sprachmodelle sind US-Entwicklungen oder basieren darauf. Solche Modelle ermöglichen die Erzeugung von Texten und mittlerweile auch Bildern, Videos und Tondateien und liegen modernen Chatbots zugrunde. Der EU-Markt ist für US-amerikanische KI-Unternehmen relevant und die Unternehmen behalten EU-rechtliche Compliance-Anforderungen im Blick. US-amerikanischen KI-Unternehmen drohen hohe Haftungsrisiken in Bezug auf die schon veröffentlichten Modelle.
Wie sehen die Unterscheide im Urheberrecht zwischen den USA und Europa aus?
Das Urheberrecht ist völkerrechtlich in vielen Punkten harmonisiert, dennoch gibt es Unterschiede. In beiden Rechtsordnungen sind Urheberrechte eingeschränkt, insbesondere um einen Ausgleich der Interessen der Urheberinnen und Rechteverwerter mit grund- und menschenrechtlich geschützten Interessen von zum Beispiel Kulturverbraucher:innen, Unternehmen oder Universitäten herzustellen. Die europäischen Schrankenregelungen rechtfertigen Vervielfältigungen in KI-Modellen in aller Regel nicht, so laut dem LG München I auch nicht im entschiedenen Fall. In den USA gibt lässt sich mit dem Prinzip „fair use“ flexibler begründen, urheberrechtlich geschützte Inhalte ohne Lizenzen zu nutzen. Auch in den USA gab gibt es zig Urheberrechtsverfahren gegen KI-Unternehmen. Aber die rechtliche Beurteilung ist noch offen. Viele Verfahren enden durch Einigungen zwischen den Parteien. Zum Beispiel gab es gerade einen Vergleich zwischen Universal Music und Udio, einem KI-Musik-Generator.
Wo liegt aus Urheber- und datenschutzrechtlicher Perspektive aktuell das Problem beim KI -Training?
Große Sprachmodelle basieren auf maschinellem Lernen. Die Modelle „erlernen“ Muster und Korrelationen anhand großer Trainingsdatenmengen, also welche Worte in einem bestimmten Kontext mit hoher Wahrscheinlichkeit aufeinanderfolgen. Daraus folgen zwei technische Phänomene, die zu Rechtsproblemen führen: die Extrahierbarkeit von Trainingsdaten in signifikantem Umfang einerseits und „Halluzinationen“ andererseits. Man kann also die KI durch Prompts dazu bringen, die Trainingsdaten wortgleich oder fast wortgleich auszugeben. Das andere Problem ist, dass die KI-Modelle „halluzinieren“. Ein halluzinierendes Modell erfindet zum Beispiel einen Liedtext, anstatt den richtigen auszugeben.
Im Urheberrecht und im Datenschutzrecht ist umstritten, wie diese beiden noch schlecht erforschten technischen Phänomene rechtlich einzuordnen sind. Insbesondere bezweifeln manche, dass KI-Modelle personenbezogene Daten oder urheberrechtlich geschützte Werke enthalten können, weil sie Daten nicht wie in einer Datenbank speichern, sondern auf Wahrscheinlichkeiten basieren. Unsere Gesetze sind aber technologieneutral, im Vordergrund stehen normative Wertungen, also wie etwas sein sollte, nicht bestimmte Technologien. Dass das LG München I Vervielfältigungen in den Modellen annimmt, ist daher richtig. Es kommt nur darauf an, ob die im Modell gespeicherten Informationen sich dazu eignen, geschützte Werke wahrnehmbar zu machen. Ebenso muss das Datenschutzrecht greifen, wenn aufgrund extrahierbarer personenbezogener Trainingsdaten Risiken für Betroffene entstehen können, insb. wenn diese oder die Ausgaben des Modells unrichtig sind.
Wie riskant sind die Modelle und wie kann das Recht auf die Risiken reagieren?
Die konkreten Risiken hängen immer vom konkreten Modell und Anwendungsfall ab. Anwendungsfälle gibt es bei Sprachmodellen unzählige. Die Risiken sind noch kaum geklärt, auch auf technischer Ebene. Die datenschutzrechtliche und die urheberrechtliche Debatte werden derzeit weitgehend voneinander entkoppelt geführt. Dabei gibt es Wechselwirkungen. Wenn Anbieterinnen die Modelle eher halluzinieren lassen, um Plagiate urheberrechtlich geschützter Werke in den Ausgaben zu verhindern, werden die Modelle häufiger erfundene, unrichtige Angaben über Personen erzeugen. Das ist auch Hinblick auf Urheberpersönlichkeitsrechte problematisch, wenn eine solche „Halluzination“ etwa einer echten Urheberin als deren Werk untergeschoben wird.
Es ist noch schwer abzusehen, wie sich die Technologie weiterentwickelt. Kleinere, weniger komplexe Modelle als die derzeit vorherrschenden „merken“ sich nicht nur weniger Trainingsdaten, sondern sind für viele Anwendungsfälle auch viel effizienter. Daneben sind Fortschritte in der Halluzinationsforschung und bei der Beseitigung von Daten aus Modellen absehbar. Entscheidend ist es, nicht voreilig rechtliche Standards im Hinblick auf die jetzt noch genutzten Modelle abzusenken, anstatt durch Regulierung Anreize zu sicheren rechtskonformen KI-Modellen zu setzen. Sich um Unabhängigkeit von der Autokratie China und der zerfallenden Demokratie USA zu bemühen, indem man Grund- und Menschenrechtsstandards auch in der EU absenkt, wäre ein verhängnisvoller Fehler. Das Thema wird uns sicherlich auch in unserem im Januar 2026 startenden Exzellenzcluster Transforming Human Rights beschäftigen.
Weitere Informationen:
Prof. Dr. Paulina Pesch
Juniorprofessur für Bürgerliches Recht, Recht der Digitalisierung, des Datenschutzes und der Künstlichen Intelligenz
paulin.pesch@fau.de
