Warum kann die KI das nicht und was müsste passieren damit sie es kann?

Die künstliche Intelligenz kann ja Bilder generieren wie "Frau im roten Mantel, die im Regen steht, schwarzer Regenschirm, blaue Schuhe"

Aber was sie nicht wirklich kann ist eine Frau zu generieren die ihre blauen Schuhe am Kopf trägt. Weil sie offenbar den Schuh als keine eigene Einheit versteht und woanders hinsetzen kann.

Was muss sich ändern damit das eine KI kann? Müsste sie jedes einzelne Kleidungsstück und jede Einzelheit der Anatomie am Menschen mit Millionen Bildern erlernen und verstehen? Könnte sie dann solche Bilder erzeugen? Warum hat das noch keiner gemacht/probiert?

Ich bin darauf gekommen, weil ich eingetippt hab, dass ich will, dass ein Mensch auf seine Hand beißt und nur Bilder kamen, wo sich ein Mensch in Portrait Pose seine Finger an den Mund hält.

2 Antworten

TheLinuxer

02.04.2024, 22:40

Das "die KI" das nicht kann, geht nicht, da es ja verschiedene Text2Image KI Modelle gibt. Zum Beispiel Stable Diffusion, DallE oder Midjourney. Außerdem kann man KI Modelle wie Stable diffusion ja selbst Trainieren.

Das heißt, dass du für deine Art von Bild, einfach das Falsche KI Model benutzt, da das KI Model was du benutzt eben nicht auf abstrakte Bilder Trainiert ist.

Außerdem erkennt die KI sowieso keine einzelnen Elemente, sondern nur in Trainingsdaten wiederholte Mustergruppen, was wieder dafür spricht, dass die KI die du benutzt, einfach nicht auf deinen Anwendungszweck Trainiert wurde.

Woher ich das weiß:Hobby – Ich Programmiere oft und gerne in meiner Freizeit.

MmmCheesecake

Fragesteller

02.04.2024, 22:56

Das "die KI" das nicht kann, geht nicht, da es ja verschiedene Text2Image KI Modelle gibt. Zum Beispiel Stable Diffusion, DallE oder Midjourney. Außerdem kann man KI Modelle wie Stable diffusion ja selbst Trainieren.

Hast du eines davon? Dann probiere doch so einen Auftrag an die KI aus. Ich habe Online Generatoren verwendet, die sind nicht so umfangreich und gut, aber im Prinzip konnten die das alle NICHT!

Das heißt, dass du für deine Art von Bild, einfach das Falsche KI Model benutzt, da das KI Model was du benutzt eben nicht auf abstrakte Bilder Trainiert ist.

Ich habe auch schon KI Models benutzt, die abstrakte, fantasievolle Kommandos umsetzen wollten, da kam aber teilweise dann ziemlicher zusammenhangloser Müll raus. Also bitte, welches KI Model soll das sein, das menschliche Aufnahmen zeigt, die realistisch durchführbar sind, aber selten bis nie gemacht werden? Denn ich will ja genau das sehen, was es nicht schon in riesigen Bilderdatenbanken gibt.

Außerdem erkennt die KI sowieso keine einzelnen Elemente, sondern nur in Trainingsdaten wiederholte Mustergruppen, was wieder dafür spricht, dass die KI die du benutzt, einfach nicht auf deinen Anwendungszweck Trainiert wurde.

Genau das sagte ich doch bereits. Sie soll aber einzelne Elemente verstehen lernen, sonst wird sie sowas nie können.

TheLinuxer

02.04.2024, 23:06

@MmmCheesecake

Ich kann dir jetzt kein konkretes Model nennen, da es von zum Beispiel Stable Diffusion schon sehr viele Versionen gibt, weil es Open Source ist und jeder dran rumschrauben kann. Allerdings kann ich dir schonmal Automatic1111 als Benutzeroberfläche empfehlen.

Außerdem musst du bedenken, dass die lokal auf deinem Rechner laufen und dementsprechend Rechenleistung brauchen. Also eine RTX 3070 solltest du schon mindestens haben und 32GB Arbeitsspeicher wären auch hilfreich. Außerdem muss das Model selbst ja auchnoch gespeichert werden, also 100GB freien Speicherplatz solltest du auch haben und am besten SSD statt HDD. Dein Prozessor sollte auch nicht so alt sein.

Weiter kann ich dir jetzt nicht helfen.

Aber ich glaube einfach nur Schuhe an den Kopf würde mit GIMP oder Photoshop schneller gehen.

herja

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Bilder, Bildbearbeitung, künstliche Intelligenz

02.04.2024, 23:54

Na ja, die KI kann das ganz sicher. Aber auch die KI macht Fehler!

Wenn die KI so schlechte Ergebnisse liefert, liegt das leider zu 98 % an unzureichende Eingaben, welche dir KI auch wirklich verstehen kann.

Dazu muss man nur wissen, dass die KI gar nicht intelligent ist.