Von künstlicher Intelligenz generierte Musik: jetzt schon in den Charts

comfyui ist kostenfrei *)
Anforderungen
librosa==0.10.2
torchaudio>=2.3.0
numpy
moviepy

Unter Windows zuerst Python installieren, danach diese anderen python libraries. Dazu in der Windows Suche CMD aufrufen und die Windows Eingabeaufforderung als Admin aufrufen. Mit dieser zum Python Verzeichnis wechseln, die restlichen Angaben sind auf den vier Seiten zu finden. Beispiel: pip install -u librosa.

Kostenfrei war bisher alles von Python, statt moviepy habe ich z.B. cv2 installiert, um aus Einzelbildern Clips zu erstellen und Clips zu einem Video zusammenzufügen. Wenn ich heute nach cv2 suche, lande ich bei opencv-python, kann mich aber nicht mehr daran erinnern.

Komme nicht dazu etwas zu installieren, weil ich seit längerer Zeit zwar einen etwas neueren und etwas leistungsfähigeren Rechner zu stehen habe, nur noch nicht eingerichtet, und meinen alten nicht noch mehr zumuten wollte.

Aber danke für den Hinweis. Hatte 2017 mit einer Python-Anwendung begonnen, um simple 2D Anwendungen zu erstellen, dann aber nur jedes zweite Jahr ein wenig daran weitergearbeitet, dann wollte ich dazu Tutorials machen, doch den großen Fehler begangen, das Fenster auf eine Bildgröße von 720p festzunageln. Wenn Bildvorlage größer oder Screen kleiner, verschwindet das untere Menü unter die Taskleiste. Und noch einmal alles umbauen, habe ich keine Meinung, so alt werde ich bestimmt nicht mehr.

MavieSzenen.jpg
Diese Bild hatte ich einmal für ein Tutorial gefertigt, der Hintergrund lässt sich gegen jede beliebige Grafik austauschen, die Matrix ist aber gut, wenn Bahnen berechnet werden sollen. Allein die Beschreibung wurde mir zu viel, hatte im letzten Jahr Probleme zu verstehen, was ich da gemacht habe, und warum ich einiges so gemacht habe.
 
Anforderungen
librosa==0.10.2
torchaudio>=2.3.0
numpy
moviepy

Unter Windows zuerst Python installieren, danach diese anderen python libraries. Dazu in der Windows Suche CMD aufrufen und die Windows Eingabeaufforderung als Admin aufrufen. Mit dieser zum Python Verzeichnis wechseln, die restlichen Angaben sind auf den vier Seiten zu finden. Beispiel: pip install -u librosa.

Anforferungen ungleich Installation:

zip runterladen
auspacken
eine .bat anklicken
Das ist unter Windoof wirklich einfach,.

Grüße
Häretiker
 
Das ist unter Windoof wirklich einfach,.
Auf meinen jetzigen Rechner nicht mehr. Sonst würde ich es mir vielleicht überlegen. Doch ich denke eher nicht, weil der Aufwand sich für mich nicht lohnt. Habe ich anfänglich erst falsch verstanden, doch ComfyUi setzt in mehr als einem Tutorial auf Stable Diffusion auf, somit alles andere als eine schlanke Anwendung.

Eine Anleitung, wie gleich ComfyUi und WAN 2.1 installiert werden könnte, auf Deutsch.



Die online Version von WAN 2.1 hatte ich bereits mit dem Elfenreigen getestet. Aber deshalb mir die Umgebung auf dem eigenen Rechner installieren, kommt für mich erst einmal nicht infrage. Meine bisherigen Anwendungen laufen alle ohne Nvidea, so sollte es auch bleiben.
 
Stable Diffusion setzt Du auf, wenn Du Stable Diffusion machen möchtest.
flux setzt Du auf, wenn Du flux machen möchtest.
Wan setzt Du auf, usw.

Schlank? Nee, definitiv nicht, so ein checkpoint hat so zwischen 2 und 20bGB. Die files sind halt so groß. Aber Dinge, die ich unter ComfyUI nicht brauche, die muss ich auch nicht installieren. Aber das ist keine 100MB Anwendung für mal eben so zwischendurch alle paar Monate. Das ist somwie einen Einkaufszettel mit Word schreiben …

Andererseits, im Zeitalter von TB-Platten isses so arg auch nicht.

Grüße
Hǎretiker
 
Aber das ist keine 100MB Anwendung für mal eben so zwischendurch alle paar Monate.
Das meine ich, da bezahle ich lieber alle paar Monate wenige Euro pro Auftrag.
Was Stable Diffusion anbelangt, dadurch würde es zwar interessanter, aber nicht mit den verfügbaren Modellen, die kann ich nicht mehr sehen, weil immer das Gleiche. Frauen oder für Kinder aufbereitete Tiere. Selbst der Bing Creator weiß nicht mehr, wie echte Zwerge aussehen. Liegt aber vielleicht an dem neuen Schneewittchen Film. Da gab es Beschwerden, weil kleinwüchsigen Schauspielern keine Chance auf die Rolle geboten wurde. Selbst die Ärmel von ihrem Kleid sehen so aus wie im Film. Bemerkte ich aber erst, als ich den Trailer sah. Der Bing Creator arbeitet mit DALL-E 3 von OpenAI. Könnte mir aber vorstellen, dass da eine Absprache vorlag, denn der Film hatte erst danach Premiere.

Schneewittchen.jpg
Edit: Braucht nicht aus dem neuen Film sein, die hatte schon im Film von 1937 die gleichen Puffärmel und seither durchgängig in Bildern und Büchern. Außer im Film der DEFA, da trägt sie ein anderes Kleid, und echte Kleinwüchsige spielen die Zwerge. Den sah ich bestimmt als Kind, an die Zwerge, von denen nicht alle recht klein waren, kann ich mich noch erinnern. In der ARD Mediathek ist auch noch ein Film, in dem sie ein anderes helles Kleid trägt und der ebenfalls Kleinwüchsige die Zwerge spielen. Den schaue ich mir gerade an. Beide Filme scheint der Bing Creator nicht zu kennen, in der Bildersuche dominieren die Vorlagen von den Disney Produktionen.

Das Reh in Brüderchen und Schwesterchen erhielt ein Hirschgeweih, ansonsten wurden zwei Bilder annehmbar bis gut. Das schlafende Dornröschen wurde gut, Rotköpfchen ging, ebenso Hänsel auf dem Weg zum Zuckerkuchenhaus.
Ich weiß aber noch, dass einer Stable Diffusion mit Daz 3D Bildern trainierte, den kann ich aber nicht mehr fragen. Braucht aber auch nicht sein, weil ich weiß, dass man eigene Bilder auch als Vorlagen für Midjourney oder Leonardo verwenden kann. Als noch Vollzugriff bei Leonardo bestand, habe ich mir Bilder für den Song Cotton Feeld von Lead Belly fertigen lassen, weil die 70 Jahre um sind, eins wurde richtig gut. Dann noch Bilder für Sur le pont d'Avignon, den Schauplatz aber von Avignon im Prompt nach Paris verlegt, weil von der einstigen Brücke nicht mehr viel steht. Die wurden zum großen Teil brauchbar bis richtig gut.

auswahl-serie-1188.jpg

Später noch Bilder für den Song Camptown Races, bei den Pferden auf der Rennstrecke kamen mir die Muskelgruppen etwas übertrieben vor. Doch da lässt sich vielleicht noch etwas verwenden von, oder noch einmal probieren.
 
Zuletzt bearbeitet:
Das Schneewittchen werde ich mal zuhause probieren. Zwischen Chroma, Flux, SD, SDXL gibts (teilweise krasse) Unterschiede, von den zahlreichen abgeleiteten Modellen und Modifikationen (checkpoints, loras, ...) mal abgesehen.

Auf perchance.org kann man sich auch bis zur Gesichtslähmung austoben.

Grüße
Häretiker
 
Das Schneewittchen werde ich mal zuhause probieren.
Mir ging es dabei nicht um die Märchen, ich wollte nur den Bing Creator testen. Der hat zwei Nachteile, einmal, dass er Bilder auf 1024 x 1024 Pixeln begrenzt. Der andere Nachteil ist, der mich einmal fast zum Verzweifeln brachte, dass er keinen Negativprompt kennt. Eine Angabe im Prompt, wie "kein Mikrofon" oder "ohne Mikrofon", ließ das Mikrofon immer größer werden. Ist jetzt bereits viele Monate her, aber heute kam mir noch der Gedanke, vielleicht hätte die Angabe "unsichtbares Mikrofon" funktioniert.

So, getestet, im Bing Creator kann man nun auswählen, ob 4 Bilder mit DALL-E 3 oder 1 Bild mit GPT-40 erstellt werden sollen. Von den Farben ist DALL-E 3 deutlich, GPT-40 ist da eher farblich altbacken, erkennt aber das "unsichtbar" im Prompt.

DALL-E 3, das wäre bei den Tests mein bestes Ergebnis gewesen, weil farblich wie gewünscht. Dieses Notenblatt da heraus zu retuschieren, hatte es einem Bild mit Leonardo probiert, hat nicht geklappt. Die heutigen Bilder wurden nicht ganz so gut, doch immer noch annehmbar, nur dass in dem angegebenen Zeitraum noch keine Mikrofone benutzt wurden.

Sängerin-01.jpg

GPT-40, die Farben und die Kleidung finde ich weniger prickelnd, und dass sie auf einer kleinen Erhebung steht, das ist nicht zu sehen, aber dass ein Mikrofon unsichtbar sein soll, wurde erkannt. Mit einer anderen Anwendung noch einen Liedtext Lippen synchronisieren lassen, könnte vielleicht etwas werden.

gpt-40.jpg
 

wooden stage hilft i.A.

flux gefiel mir nicht so, aber realism (Basis: SDXL) kommt schon in die Richtung:

realism_engine_00026_.png

Aber kein Mikro musste ich schon hart einmassieren im neg. Prompt: (microphone:1.6)
Das geht einigermaßen flott, knapp 30s.

Und die Auflösung ist dadurch bedingt, dass man mit gewisen Formaten die KI trainiert hat. Soll das größer werden => Upscaler.

Noch eine Version 'kitsch 50s':

realism_engine_00028_.png

Grüße
Häretiker
 
Zum Glück deutlich erkennbar, dass das KI-Bilder sind. V.a. beim vorletzten Bild.
 
Das war jetzt auch est einmal drauflos, es geht besser, aber - wie immer - da braucht man Zeit und Fertigkeiten. Wenn man isch mal anschaut, was die Könner da raus holen, das ist schon beeindruckend. Ich stehe da noch am Anfang.

Grüße
Häretiker
 
Mitunter bekommt man ... interessante Ergebnisse:
famous 60s photo, "Snowwhite and the seven Dwarfs" crossing a cross walk in london abby road style, all eight walking in line, snowwhite takes the leadwan_t2i_00010_.png

view

Snowwhite hatte ich mir geringfügig anders vorgestellt, Zählen ist schwer, ...

Grüße
Häretiker
 
Hatte mich heute zuerst bei Daz 3D umgesehen. Das Daz Studio ist kostenlos, aber deren Geschäftsmodell ist, dass die meisten Nutzer alles kaufen. Aber der Preis für Südseekleid, einen Haarkranz aus Blumen und Palmen, das hat halt alles ebenfalls seinen Preis, oder man fertigt möglichst viel selbst, innerhalb von vier bis acht Wochen. Es gibt einige wenige, die haben sich spezialisiert auf z.B. Kleidung, die sind natürlich schneller, benutzen aber für die Erstellung extra Programme, die ihren Preis haben. Jedenfalls nicht unter 1.000 Euro, eher mehr. Für ein kurzes Video in den Shorts völlig unrealistisch.
Dann habe ich einen Vergleich zwischen Bing Creator und Leonardo in der kostenlosen Version gemacht.

Zuerst mit Bing:
Hula-Hula-00.jpg

Dann Leonardo (Im übersetzten Prompt ein Female hinzugefügt):
A photorealistic scene on the beach in Polynesia, Tahiti, in the foreground a female hula hula dancer in traditional costume, with a flower wreath in her hair, in the background the sea in sunshine, palm trees to the side.
Erst danach gesehen, dass das ebenfalls TikTop Größenformat zur Auswahl stand, welches dem YT Format entspricht. Damit ließ ich zwar noch vier für die Vorschau Rendern, doch diese wurden dann aber bereits weniger gut. Macht die besseren Gesichter.

Hula-Hula-Leo-00.jpg

Nun muss ich mir überlegen, was ich damit mache.
Entweder endlich einmal bei der Sparkasse nachfrage, warum ich eine Mastercard habe, wenn Leonardo deren Nummer als ungültig betrachtet (kann sein, dass die erst freigeschaltet werden muss. Doch das würde erst etwas werden, wenn mir nicht mehr bei jeder Kleinigkeit die Beine bis zum Versagen schmerzen würden).
Oder ich mache nur Überblendungen, oder ich mache nur eine Auswahl von Kling AI animieren (ob meine frei Kredits für 10 x10 Sekunden Clips genügen würden, um auf 1 Minute zu kommen, kann ich gerade nicht einschätzen. Andere machen aber auch viele Shorts mit einer Länge von 20 bis 30 Sekunden. Dafür würde es sicherlich reichen.
 
Zuletzt bearbeitet:
Ja, der Begriff kommt mir nicht unbekannt vor. Dafür markiert man bei Leonardo den auszubessernden Bereich mit einem Pinsel und eigentlich sollte dieser Bereich dann, wie im Prompt beschrieben, ersetzt werden. Hatte beim Mikrofonen versagt. Könnte aber auch sein, dass auch da im kostenlosen Plan gebremst wird. Was besser ging, ein Bild zu erweitern.

Ich dachte, ich wäre in meinem alten Faden in der Plauderecke, da fand ich aber die Bilder und Posts nicht. Da werde ich wohl weitermachen. 4 x 10 Sekunden Clips sollten genügen, für mehr reichen auch meine Credits nicht. Doch es fängt schon gut an und vorher sehe ich nicht, ob Kling AI die Mädchen tanzen lässt. Ja, ich weiß, zuerst kommen die zahlenden Kunden, wenn dann nach Stunden ausreichen Rechenzeit übrig ist. Da kann ich mich wohl schlafen legen.

Estimated waiting time: longer than 3 hours

Aber wenigstens schreiben,

Start & End Frames now available on Kling 2.1Huge 235% improvement over 1.6 with best-in-class performance!

Ja, ich weiß, zuerst kommen die zahlenden Kunden, wenn dann nach Stunden ausreichen Rechenzeit übrig ist. Da kann ich mich wohl schlafen legen. Nach Stunden erneut wach geworden, es werden noch immer 3 Stunden Wartezeit angezeigt. Beim 0€ Plan gibt es nur eine Warteschlange, bei den anderen steht Warteschlangen unbegrenzt. Beim Plan 0€ Plan steht aber auch, keine monatlichen Credits, ich habe dennoch 160 erhalten. Nun sind 40 für den ersten Clip, war beim ersten Test nicht anders. Nur da betrug die Wartezeit nur Minuten. Für rund 80 Euro pro Jahr erhält man 660 Kredits, würde 33 Clips zu 5 Sekunden entsprechen, bei 10 Sekunden die Hälfte, beides bei p720, wie der Preis sich ändert bei p1080 ändert, darüber habe ich bisher noch nichts gefunden. Aber darüber, durch Methode 1 habe ich möglicherweise meine jetzigen Credits erhalten. Methode 2 scheint nichts für mich zu sein.

Eine andere Möglich wäre aber, dass man sich Credits dazu kauft und die verfallen nicht. Die Preise sind dabei gestaffelt, in Dollar ab 5, 10, 20 bis 1.200, was sich irgendwie anbieten würde. Einen niedrigen Abo Plan, keine monatlich unnötig hohen Kosten, wenn man nichts macht.
Nebenher wurde mir noch klar, warum Klang IO mein Passwort nicht mehr erkannte. Hatte Klang IO mit Kling AI verwechselt.

Der Zeitunterschied Berlin - Hongkong beträgt 6 Stunden. Als ich auf Start tippte, hatten die Chinesen schon gefrühstückt?
Das läuft ja nun alles ohne eine Verbindung zu meinem Rechner, der kann erneut auf Stand-by gehen, und ich werde mich erneut hinlegen, falls ich denn Schlaf finde.
Der Traffic Report wurde von ChatGPT mit Daten von SimilarWeb erstellt, enthält eine kleine Weltkarte mit Prozenten und angekreuzten Top-5-Ländern. Zusätzlich die Länder und Prozente noch einmal in einer Tabelle. Die USA liegen demnach noch vor China, nicht aber vor China und Indien zusammen. Hätte auf mehr Chinesen getippt.

Bei Reddit gibt es einen Faden (Wie lange braucht Kling bei euch?), der ist vom letzten Jahr, von 1 bis 3 Tage las ich etwas, dann kann es wohl immer noch fehlschlagen. Aber ist egal. Lasse es rödeln, solange wie es dauert oder bis es fehlschlägt, es bezieht sich nur auf den kostenlosen Plan, in den anderen Plänen soll es nur Minuten dauern. Habe es mir auch so noch einmal überlegt, der Hula Tanz kommt von Hawaii, von Tahiti kommen eher andere Tänze.
 

Anhänge

Zuletzt bearbeitet:

Zurück
Oben Unten