Ich sehe es kritisch, dass für das Trainieren von KI-Modellen personenbezogene Daten und urheberrechtlich geschützte Werke verwendet werden.

Obwohl ChatGPT bereits vorhandene Texte zum Training verwendet, werden bei der Ausgabe nicht einmal Quellen angegeben. Selbst wenn etwas anders formuliert ist, müssen die Informationen irgendwo herkommen, was angegeben werden sollte. Gleiches gilt für Anwendungen die Bild oder Ton verarbeiten.

Wie kann überhaupt sichergestellt werden, dass die Ausgabe nicht zu nah an den Trainigsdaten liegt, also dass z.B. ein KI-generiertes Bild einem Bild aus den Trainigsdaten zum Verwechseln ähnlich sieht? Auch wenn dies nicht der Fall ist, steckt trotzdem die Arbeit von Urhebern dahinter, die für ihren Anteil nicht entlohnt werden. Dazu kommt noch das Recht am eigenen Bild. Sollte sich hier etwas ändern? Und wie kann ich als Urheber oder abgebildete Person meine Werke schützen oder gegen deren Verwendung vorgehen?

Neben den öffentlich verfügbaren Daten und Werken können Unternehmen, die personenbezogene Daten verarbeiten, diese auch noch zum Training verwenden. Wie ist hier der Datenschutz und die Einhaltung dessen Grundsätze sicherzustellen?

Während bei einer einfachen Statistik kein Rückschluss auf die einzelnen zugrundeliegenden Daten möglich ist, gibt es bei großen Modellen keine wirkliche Kontrolle, was mit den Daten passiert und für welche Zwecke diese später einmal verwendet werden. Bei der Nächste-Nachbarn-Klassifikation (k-nearest neighbors) besteht der Trainingsprozess sogar nur aus der Einspeicherung der Daten, sodass die ursprünglichen Trainigsdaten also dauerhauft im Modell enthalten bleiben. Gibt es oder sollte es hier also Regeln für die Verarbeitung von Daten geben? Wie lässt sich außerdem die Einhaltung kontrollieren?

Oder seht ihr es weniger kritisch, wenn urheberrechtlich geschütze Werke und personenbezogene Daten verarbeitet werden?