Von künstlicher Intelligenz generierte Musik: jetzt schon in den Charts

Melegrian · 09.09.2025

Die eine Sängerin von oben (von der letzten Seite) noch einmal, nur heute mit Nano Banana (anderer Name für Gemini-2.5-Flash Image im Google AI Studio) bearbeitet.
Versteht Deutsch, ein simpler Prompt genügte:

Entferne das Mikrofon mit Ständer und Ständer vor der Sängerin.

Irgendetwas in der Hand kann sie ja halten. Die untere helle Fläche sieht nach einem Notenblatt aus, vielleicht hat sie noch eine Ansprache zum Vortragen oder Ähnliches vorbereitet. Die Finger von der rechten Hand wurden mit wegretuschiert, doch die habe ich ja noch.

Generated Image September 09, 2025 - 9_24PM.png

Melegrian · 10.09.2025

Google hat einen Leitfaden für Nano Banana bereitgestellt, mit Beispielen, wie z.B. ein Prompt aussehen sollte.

Bilder mit Gemini generieren (auch als Nano Banana bezeichnet) | Gemini API | Google AI for Developers

Erste Schritte mit der Gemini API

ai.google.dev

Für die Bildgenerierung eher weniger wichtig, da liefert Midjourney und Leonardo bessere ab, falls man ein entsprechendes Abo hat, welches über 0 liegt. Doch für die Bildbearbeitung sehr gut geeignet, meine ich bisher. Ich sollte es einmal probieren, weil sich konsistente Charaktere erstellen lassen, und anderes.

Melegrian · 29.09.2025

Hatte gerade so eine von YouTube vorgeschlagene Mix-Liste nur im Hintergrund zu laufen, und auf einmal dachte ich, was ist denn das, so hatte ich One Way Ticket (to the Blues) gefühlt noch nie gehört. Habe One Way Ticket schon so oft gehört, so kannte ich es gefühlt noch nicht. Nachgeschaut, ein singender Avatar, konnte ich mir schon denke, und in der Beschreibung stand auch:

This is an AI-generated cover version

Gefällt mir gut. Anderen scheinbar ebenfalls, denn in drei Wochen 74.767 Aufrufe und 1060 Likes, ist zumindest nicht wenig. Gut, sie macht auch Shorts über Mode, die für mich nach Indien aussieht. Erst am 29.05.2025 den Kanal bei YT eröffnet und bereits 8780 Abonnenten, spricht auch für sich.
Aber je öfter ich mir diese Version anhöre, ja, die KI-Stimme hört sich an einigen Stellen noch synthetisch an, wo sie an ihre Grenzen kommt. Und erst einmal finde ich nur diese Cover-Version gut, denn Rivers of Babylon ist zweimal eingestellt, und beide Versionen hören sich für mich vermurkst an. In ihren Shorts hat sie aber den Titel x-mal und einen kleinen Tick besser, reicht aber lange noch nicht an Boney M. heran. Könnte eventuell auch sein, dass die KI-Stimme dafür nicht oder noch nicht geeignet ist.

Noch ein AI Cover von einem anderen Kanal - Woman in Love - Dana Winner. Der Gesang ist gut, doch von den Avataren gefällt mir der Klavier spielende am besten.

Nun habe ich mir noch einmal One Way Ticket angehört, doch die eigentliche Version mit Leslie Johnson (nein, Kim Davis und später wohl Precious Wilson waren die Sängerinnen) und der Band Eruption, nun diese neue Version ist frischer, reicht aber nicht an der originalen Stimme heran. Vielleicht im nächsten Jahr.

Melegrian · 30.09.2025

Bei den Leadsängerinnen kam ich durcheinander, beim Rest ebenfalls. "One Way Ticket (To the Blues)". Frank Farian hatte zwar den Song nicht komponiert, doch die Band Eruption produziert. Der wusste halt schon immer, was die Menschen auf der Bühne sehen wollen, braucht nicht das Gleiche zu sein, was die Leute hören wollen, Hauptsache beides passt zueinander. Also gute Avatare sind ebenso wichtig wie gute Voices, können aber durchaus von unterschiedlichen KIs erzeugt werden. Farian hatte somit schon das grundlegende Konzept von Erfolg verstanden, und hätte sicherlich einen guten Einstieg in diese neueren Technologien gefunden.

Jay Lew · Heute um 10:27

Melegrian schrieb:
Mir ging es dabei nicht um die Märchen, ich wollte nur den Bing Creator testen. Der hat zwei Nachteile, einmal, dass er Bilder auf 1024 x 1024 Pixeln begrenzt. Der andere Nachteil ist, der mich einmal fast zum Verzweifeln brachte, dass er keinen Negativprompt kennt. Eine Angabe im Prompt, wie "kein Mikrofon" oder "ohne Mikrofon", ließ das Mikrofon immer größer werden. Ist jetzt bereits viele Monate her, aber heute kam mir noch der Gedanke, vielleicht hätte die Angabe "unsichtbares Mikrofon" funktioniert.

So, getestet, im Bing Creator kann man nun auswählen, ob 4 Bilder mit DALL-E 3 oder 1 Bild mit GPT-40 erstellt werden sollen. Von den Farben ist DALL-E 3 deutlich, GPT-40 ist da eher farblich altbacken, erkennt aber das "unsichtbar" im Prompt.

DALL-E 3, das wäre bei den Tests mein bestes Ergebnis gewesen, weil farblich wie gewünscht. Dieses Notenblatt da heraus zu retuschieren, hatte es einem Bild mit Leonardo probiert, hat nicht geklappt. Die heutigen Bilder wurden nicht ganz so gut, doch immer noch annehmbar, nur dass in dem angegebenen Zeitraum noch keine Mikrofone benutzt wurden.

Anhang anzeigen 77729

GPT-40, die Farben und die Kleidung finde ich weniger prickelnd, und dass sie auf einer kleinen Erhebung steht, das ist nicht zu sehen, aber dass ein Mikrofon unsichtbar sein soll, wurde erkannt. Mit einer anderen Anwendung noch einen Liedtext Lippen synchronisieren lassen, könnte vielleicht etwas werden.

Anhang anzeigen 77730

Probier mal Genmi AI aus – die Bildgenerierung ist echt gut!
https://genmi.ai

Von künstlicher Intelligenz generierte Musik: jetzt schon in den Charts

Melegrian

Melegrian

Bilder mit Gemini generieren (auch als Nano Banana bezeichnet) | Gemini API | Google AI for Developers

Melegrian

Melegrian

Jay Lew