Von künstlicher Intelligenz generierte Musik: jetzt schon in den Charts

  • #222
Bei Musik gibt es jetzt keine Fehler in dem Sinne
Wenn man von der Prämisse ausgeht, dass jedwede Kombination von Tönen Musik ist. Das entspräche der Prämisse, dass jede Kombination von Buchstaben einen Text ergibt.
 
  • #223
Eine gewisse Parallele zur Dotcom-Blase kann man da durchaus sehen.
Wie ich schon sagte - eine Korrektur könnte nicht schaden, muss aber nicht zwangsweise kommen. Dennoch: Dotcom war nur ein Haufen wirrer ZukunftsFANTASIEN, während AI ja durchaus bereits zur Anwendung kommt - die zukünftigen Geschäftsmodelle haben sowohl eine existierende Anwendungsbasis als auch eine etablierte Infrastruktur. >>> Die Züge rumpeln zwar noch und sind fehlerbehaftet, befördern aber bereits Passagiere (kostenlos) auf bereits gelegten Schienen.
 
Zuletzt bearbeitet:

  • #224
Wenn man von der Prämisse ausgeht, dass jedwede Kombination von Tönen Musik ist. Das entspräche der Prämisse, dass jede Kombination von Buchstaben einen Text ergibt.
Aber sicher doch, die zugehörige Sprache ist nur noch nicht erfunden.
 
  • #225
So haben Biologen gewarnt, dass Tiere von denen es überschaubares Bildmaterial gibt, von KI erzeugt werden, dabei macht die KI natürlich Fehler, dann wird das Bild wieder genommen um die KI zu trainieren und die generierten Bilder entfernen sich immer weiter vom Original.
Bei Sichtungen von seltenen Arten, oder Arten, die untypisch für eine Region sind, zählen ohnehin nur Bilder mit Quellenangaben als Belegfotos. Zu den Angaben gehören Datum, Ortsangaben, Habitat falls erforderlich, Wetterdaten und der Name des Beobachters. Bis in den 80er Jahren noch mit Karteikarten, heute zunehmend mit Monitoring.
Wo Fehler auftreten, war z.B. als für die Werbung ein Pirol oder Eisvogel benötigt wurde, dafür ein Bild von einer Bildagentur erworben wurde, welches aber bereits ein KI-Bild war. Irgendwo wurde dann darüber berichtet, dass dadurch im Werbespot oder auf einem Plakat kein reales Bild vermittelt wurde. Weiß jetzt nicht mehr die Einzelheiten, habe nur den groben Rahmen in Erinnerung. Ja, ist zumindest nicht schön, wenn Kinder lernen, dass Kühe lila sind, wovon es reichlich Bilder gibt.
 
  • #227
Auch wenn die Blase platzt, werden Technologie-Know-how, Rechenzentren und entwickelte Anwendungsszenarien incl. der Nachfrage ja bleiben.
Wir werden mit dem 'Slop' leben müssen.
In etlichen Wissenschafts- Forschungsbereichen macht der Ki-Einsatz ja Sinn (Simulationen, Herausschälen von Ereignissen aus großen Datensätzen, Proteinsynthese, usw.), aber im Allgemeinen wird das zur Verdummung beitragen.
Die Geschichte mit den Hautärzten (signifikanter Kompetenzverlust bei Hautkrebserkennung nach bloß 6-monatigem 'Ki'-Einsatz) spricht Bände und wird in ähnlicher Form auf viele Bereiche ausstrahlen.
Es soll ja vor Jahren noch Schilder in Arztpraxen gegeben haben mit:

"An die Patienten, die sich nach GOOGLE Diagnose
hier eine zweite Meinung holen wollen:
konsultieren sie bitte YAHOO"

Das Problem ist also nicht ganz neu, schon vor 'Ki' konnten Einige ja ohne ihr Smartphone nicht mal ne Pizzeria finden, oder wussten bei der Reise von München nach Berlin noch nicht mal in welche Himmelsrichtung das wohl gegangen sein könnte.
Die Fähigkeiten zum Erfassen längerer und komplizierter Texte/Bücher werden vermutlich weiter abnehmen (was sich m.E. ziemlich linear in Verdummung übersetzt), der Bio-Arbeitsspeicher zum selbstständigen Durchdenken von schwierigen sperrigen Zusammenhängen wird bei 'ki'-Nutzenden kleiner werden, so dass vernetztes Denken und das wichtige wissensbasierte Assoziieren schwieriger werden, in vielen (den meisten?) Medienprodukten wird die Quellenlage nicht mal mehr den Medienproduzenten selbst noch transparent sein, etc.
Schon der Verzicht von eigener vor Ort Recherche und der Rückzug auf umformulierte Agenturmeldungen führte in den letzten Jahrzehnten zu deutlichem medialen Qualitätsverlust, der zu erwartende flächendeckende 'ki'-Einsatz (siehe die peinliche Panne beim 'Spiegel') wird große Teile der Branche ggf. auf's Abstellgleis setzen. Viele Jobs werden wegfallen, die übrig bleibenden werden ggf. nochmals stressiger werden, da die Entspannung durch Routinetätigkeiten (macht jetzt die 'Ki') wegfällt, und, da ja trotz aller Rationalisierungen in unserem Wirtschaftssystem alle arbeien gehen müssen, wird die Zahl der sogenannten 'Bullshit Jobs' weiter zunehmen.

Den Ersatz von Bio-Gebrauchsmusiken durch 'Ki'-Gebrauchsmusiken halte ich dagegen für ziemlich unproblematisch.
In Spotify Playlists fällt den Nutzer:innen etwaiger Ki-Einsatz ja - aus Gründen(!) - meist doch gar nicht auf.

Der Bio-Konzertbetrieb wird weitergehen (es gibt ja Nachfrage), musikpädagogisch wird m.E. erstmal (zumindest bis 'Ki' 5.0 oder 6.0) alles beim Alten bleiben, aber tendenziell wird möglicherweise auch da ein einsames Lernen vor Bildschirmen Einzug halten.
Ein wenig ist das ja schon (Generation Youtube) der Fall.
 
Zuletzt bearbeitet:
  • #228
Fake mit gut gemachten Werbespots, Politiker im Mittelpunkt, Lippensynchronisation ohne erkennbare Fehler, ist nicht neu, mir aber so kurz hintereinander erst in den letzten Tagen gehäuft bei YouTube über den Weg gelaufen. Dazu dann eine Landingpage mit Logo von der Tagesschau. Wie viele mögen noch darauf hereinfallen?
So häufig wie bereits darüber berichtet wurde, sollte man annehmen, dass YouTube diese Werbung mittlerweile bereits erkennen und sperren kann. Aber anscheinend noch nicht. Der Beitrag ist von August, doch ähnliche Beiträge sind bereits von August 2023 und es gibt noch immer keine Möglichkeit diese Werbung gleich von einem Sperrfilter erfassen zu lassen? Kann ich mir beinahe nicht vorstellen.

Sie alle haben in Talkshows ihre Geldanlagestrategien verraten, mit denen Anleger ohne Kenntnis oder Kapital reich werden können.
tagesschau.de
Jedenfalls finde ich das schlimmer, als ein Osterhase mit Geweih, Politiker als Witzfiguren, oder was es sonst noch so gibt.

Rechenzentren und entwickelte Anwendungsszenarien incl. der Nachfrage ja bleiben.
Einfach aussteigen wird wohl nicht erfolgen, kann ich mir nicht vorstellen. Wie sollte es auch gehen, man wird nicht China einfach so den Markt überlassen. DeepSeek habe ich zwar noch nicht ausprobiert, soll aber gegenüber ChatGPT nicht schlecht abschneiden. Ausprobiert habe ich bisher nur Wan 2.1 von Alibaba und Kling AI selbstverständlich.

Aktueller:
Erstellen Sie professionelle, audiosynchronisierte Videos aus einer einzigen Eingabeaufforderung. Wan 2.5 erzeugt Stimme, Musik und perfekt abgestimmte Lippensynchronisation in einem Durchgang.
Wan 2.5
Ähnelt doch eher einem Wettlauf.
 
  • #229
Was verstehen die unter Coversongs?
Darauf ist er im neusten Video eingegangen.



Der Hinweis mit den Musikplattformen, wo MP3 oder Wave-Dateien zum Download erhältlich sind, scheint nur bedingt zu stimmen. Er nennt Apple Music und Tidal als Beispiele, doch Gemini und ChatGPT meinen beide, MP3 ja, doch Wave-Dateien nur zum Upload, jedoch nicht zum Download, und MP3 ist kein Arbeitsformat. Spielt jedoch fürs Nachspielen praktisch keine Rolle, doch dann würde es auch Audacity tun.
Dann geht er bei seinem Beispiel mit Last Christmas nicht auf die rechtlichen Fragen ein. Verwertungsrechte von Bildern einstiger Prominente wird man sicherlich von bekannten Bildagenturen erwerben können, könnte somit das kleinste Problem sein. Wenn man diese als Vorlage nur für eigene KI Bilder verwendet, dann wohl ebenfalls, jedoch nicht in kommerziellen Bereichen, ohne irgendeine Genehmigung.
Und eine vorhandene Melodie als Grundlage für ein Cover zu nutzen, welches einer abgeleiteten, aber neuen Version gleichkommt, ginge mit Wohnsitz in den Niederlanden, aber nicht in Deutschland, ohne eine Lizenz. In den Niederlanden sollen kleine Änderungen genügen, damit es als neues Werk durchgeht, in anderen Ländern nicht, zumindest ist das mein Kenntnisstand. Nur Nachspielen ist etwas anderes, dafür genügt die GEMA. Aber wo liegen die Grenzen zwischen einfach nur Nachspielen und neuer Version, und wie schnell ist eine Grenze mit Suno erreicht oder überschritten? Völlig gleich, ob man das Suno nun verheimlicht oder nicht, sind das Fragen, die sich jeder vorher beantworten sollte, bevor etwas bei Spotify oder ähnlichen kommerziellen Plattformen angeboten wird.


Gut, die Stimmen hat er mit Synthesizer V erzeugt. Hatte selbst ja nur eine männliche und eine weibliche Stimme zum Synthesizer erworben. Er wird sicherlich mehr erworben haben. Was mir bisher nicht gefällt, daraus einen Chor erzeugen, hört sich bei meinen bisherigen Tests nicht überzeugend an. Mehrstimmig wird es zwar in der DAW durch Versetzen um Cents und Millisekunden, aber die Stimmen an sich, die Stimmfarben nehmen ja nicht zu. Etwas testen werde ich es noch, was sich erreichen lässt.
 
Zuletzt bearbeitet:
  • #230
Kleiner Überblick:



Der deutsche Titel "Verknallt in einen Talahon" ist alles andere neu, voll im Vintage Stil alter Schlager aus den 1950ern, enthält Ausdrücke, die mir als alter Man unbekannt sind. Ein Cover davon wäre "Verknallt in einen H*sohn", wobei das Video ebenfalls bereits 1 Jahr alt ist.
 
Zuletzt bearbeitet:
  • #231
Dann geht er bei seinem Beispiel mit Last Christmas nicht auf die rechtlichen Fragen ein. Verwertungsrechte von Bildern einstiger Prominente ...
Darauf ist er in einem weiteren Video eingegangen. Habe auf Zeitpunkt verlinkt, wo der Hinweis mit Bildern von Prominenten kommt.



Habe noch einmal danach gesucht, stimmt, so steht es in § 22 vom Kunsturhebergesetz (KUG):

Und hier mal das komplette Weihnachtsvideo mit The Lost Christmas Tapes.

 
Zuletzt bearbeitet:
  • #234
Das ist kein Video von der Stange.
Die Wolken hängen ab und zu tief und die Ohrformen wechseln.

 
  • #235
Das ist kein Video von der Stange.
Trotzdem kann man es getrost bereits bei Sekunde 6 wieder abschalten.
Da sehen z.B. Videos von "Chaisen Hale" doch schon mehr wie "nicht von der Stange" aus.
 
  • #236
Da habe ich jetzt in mehrere reingehört, aber bei allen nicht allzu lange. Die Songs berühren mich nicht, die erreichen mich nicht, die lösen kein Gefühl bei mir aus. Da finde ich Songs of the Wind um 100 Meilen besser, um die Seele anzusprechen, und wenn der Chor einsetzt, kommt die Gänsehaut dazu.
 
  • #237
Ach du meine Güte. Berühren tut mich bei beiden nix. Dachte, es geht um die Umsetzung von generativer KI.
 
  • Like
Reaktionen: trm
  • #238
Die generierten Landschaften einschließlich Kamerafahrten fand ich eigentlich wunderbar passend zum Genre "Ethereal Irish Folk Music". Einzig daran, dass in zwei Clips die Wolken etwas tief hingen und Erhebungen auf dem Land berührten, obwohl die Wolkenhöhe dort auch mindestens eine Höhe von 2 km erreichen soll, ist der Fantasie geschuldet. Stört aber in keinen Film, der auf Fantasie berührt. Als Thema diente laut Beschreibung Legends of Tír na nÓg, den Begriff kannte ich bisher noch nicht.
Kurz gefasst von Gemini: Tír na nÓg ("Land der Jugend") ist ein mythisches Inselreich in der irischen Mythologie, ein übernatürlicher Ort der ewigen Jugend, Schönheit und Freude[...]

Kleiner Nachtrag: Zwischenzeitlich wurde ich darauf aufmerksam gemacht, dass es einmal ein Album "Tír na nÓg" von einer gleichnamigen Gruppe gab, dazu noch eine Liste mit weiteren Titeln zu diesem Thema verlinkte. Wie bereits geschrieben, diese Legende kannte ich bisher nicht. Von der visuellen Gestaltung waren die meisten, da etwas älter, nur mit einzelnen Bildern unterlegt. Bei einem, auf Gälisch gesungenen, vermischen sich Bodennebel mit Wolken. Die Untertitel versagten bei YouTube, vermutlich wegen des Gälischen, wobei der musikalische Stil ohnehin ein anderer war. Kurz und knapp, es gibt bisher kein visuell besser umgesetztes Musikvideo in diesem Bereich und zu diesem Thema.
 
Zuletzt bearbeitet:
  • #239
Kommt wohl auf die Musik an. Bei Klaviermusik, Kammermusik, bei Liederabenden, Sinfoniekonzerten oder in der Oper hilft keine Technik und keine KI. Weder jetzt noch in der Zukunft.
Jaaa, da ist ja auch n büschen mehr Substanz im Spiel, die sich nicht so leicht zusammenrechnen lässt wie so ein hingeklatschtes Song-chen
Wenn man von der Prämisse ausgeht, dass jedwede Kombination von Tönen Musik ist. Das entspräche der Prämisse, dass jede Kombination von Buchstaben einen Text ergibt.
bsliuh fgböfghönokj dsrgk u serifulfhgb lfgöboijrtg luifgblkusdre gfgoböirjt gfgdlböijfgb öoseriortoifgb sdrlj dfbkdfgböoierortdf gfkdfkjfgb lerogiertöofgb desrlkrtglb fgbn.
?
ruefuzerf !!
 
  • #240
"bsliuh fgböfghönokj dsrgk u serifulfhgb lfgöboijrtg luifgblkusdre gfgoböirjt gfgdlböijfgb öoseriortoifgb sdrlj dfbkdfgböoierortdf gfkdfkjfgb lerogiertöofgb desrlkrtglb fgbn.
?
ruefuzerf !!"

Blanks sind Pausen ...

Auch aus solchen Zeichenketten kann man "Töne" generieren.

Man nehme hiervon mal schlank die Buchstaben A bis G als gültige Töne - und rechne die, die "zu weit" sind im Alphabet, immer jeweils um 8 "Töne" herunter, bis sie dann endlich im Bereich A bis G gelandet sind.
Jeden Buchstaben guckt man sich an - bist du im Bereich A bis G? Nein? - eine Runde um 8 ASCII herunter, mache somit aus H das A, oder aus I das B, usw., und ggfs. noch eine Runde...

Der Softwerker nennt das "Patchen". Eine feste, regelbasierte Zuordnung von Input auf Output.

Voila - "Musik". ...

Oder man nehme sowas als Input für ein Panel von gültigen Akkorden - oder Genre-spezifischen Akordfolgen.

Man kann sich halbwegs easy auf so eine Tour auch einen Text-to-Lilypond-Generator bauen, wenn man ein bisschen zu proggen gelernt hatte. Dann steckste Goethes "Faust" da rein - und erhältst eine dicke Sym- (oder Kako-)phonie ... :-P

Klar, hinter den krummen Zwischen-Ergenissen dann noch Handarbeit ...
 

Zurück
Oben Unten