Musik mit künstlicher Intelligenz
AI
Heutzutage finden wir künstliche Intelligenz, oder kurz KI, überall. Beim Online-Shopping schlägt sie uns weitere Produkte vor und mit der intelligenten Kamera im Handy gelingt jedes Foto bei fast jedem Licht.
Nachdem es schon ein von einer KI gezeichnetes Bild im Stil von Van Gogh gibt, war es nur eine Frage der Zeit, bis auch der andere Kunstzweig, die Musik, von der KI übernommen wurde.
Doch von vorne: die frühesten Versuche mit einem Computer Musik zu erzeugen gehen zurück ins Jahr 1956. Klanglich war dieses Experiment mit Stockhausens Zwölftonmusik zu vergleichen. Im Stil eines 8-Bit Gameboy Soundtracks.
Besser, sowohl im klanglichen, als auch in der dabei entstandenen Musik, war die Software von David Cope. Der Professor der University of California entwickelte Ende der 70er Jahre EMI (Experimental Musical Intelligence), welche als erstes Programm Originalmusik komponieren konnte. Hierfür befolgte sie drei Schritte. Im ersten entschlüsselte sie frühere Kompositionen, dann verarbeitete sie die Daten um musikalische Muster zu identifizieren. Im letzten Schritt schuf sie aus all den gesammelten Daten und gelernten Fähigkeiten eigene Kompositionen. So entstanden über 1000 Songs, welche verdächtig nach Bach, Mozart und Beethoven klingen. Dies waren die Komponisten, mit deren Werken EMI gefüttert und angelernt wurde.
Die Technik, um computerbasiert Musik zu erzeugen, existiert also schon seit über 40 Jahren. Darüber hinaus wird der Computer als Hilfsmittel im kreativen Prozess oder in der Produktion der Musik schon länger erfolgreich genutzt.
So half ein sogenannter Verbasizer, also ein Gerät, welches zufällig Sätze zusammenwirft, David Bowie beim schreiben seiner Texte. Und heute sind Pop-Nummern ohne die Tonkorrektursoftware Autotune kaum noch zu finden. Ganz zu schweigen vom digitalen aufnehmen und bearbeiten des Materials in ProTools, Logic, Cubase, etc.
Warum schlägt den KI Softwares wie AmperMusic oder Googles Magenta eine Welle der Kritik entgegen? Und was können die einzelnen Programme alles? Und am wichtigsten: Für wen sind diese Programme geeignet?
Diese Fragen werden im Folgenden bei der Vorstellung der einzelnen Programme beantwortet.
AmperMusic
Den Anfang macht AmperMusic. Mit dieser Software werden „schnelle“ und „kreative“ Lösungen versprochen.
Man beginnt damit die Songlänge auszuwählen. Hier kann man entweder von einer bis hin zu fünf Minuten alles auswählen, oder man lädt ein bis zu fünf Minuten langes Video hoch und Amper übernimmt die Videolänge als Länge des Songs. Hiernach kann man die Position von drei Punkten festlegen: das Ende des Intros, den musikalischen Höhepunkt und den Anfang des Outros.
Dann sucht man sich eine Grundstimmung bzw. eine Emotion und einige Instrumentationen aus. Anschießend wird der Song generiert und man kann ihn sich als MP3, WAVE oder als einzelne Instrumentengruppen (sog. Stems) herunterladen.
Allein durch die letzte Möglichkeit und die Funktion, dass man die Länge eines Videos als Songlänge bestimmen kann, zeigt, dass AmperMusic vor allem für Video- und Musikproduzenten gedacht ist. Auch Spieleentwickler können ihren Indie-Games hier ein ansehnliches musikalisches Grundgerüst basteln, welches sie später mit Hilfe eigener Instrumente erweitern können.
Aiva
Einen ähnlichen Weg schlägt auch Aiva ein. Das Start-Up aus Amsterdam wirbt mit dem Slogan „supercharge your creativity“, sowie mit „personalisierter Musik“ und „kreativer Freiheit“.
Wie Aiva einen Song generieren soll, kann man selbst entscheiden. Entweder man gibt einen „Einfluss“ ein, beispielsweise ein Stück eines Komponisten, oder man lädt eine eigene MIDI-Datei in das Programm. Hiernach stellt man ein, inwiefern sich das zu komponierende Stück dem hochgeladenen Original ändern soll und nach Verarbeitung kann man sich das Ergebnis als MIDI-Datei oder als MP3 herunterladen.
Melodrive
Einen komplett anderen Ansatz versucht Melodrive zu verfolgen. Das Unternehmen aus Berlin will sich mit seiner Software vor allem auf „adaptive Musik“ konzentrieren. Hiermit ist musikalische Untermalung gemeint, welche beispielsweise in Videospielen kontextsensitiv reagiert.
In einer eigens veröffentlichten Studie erklärt das Team von Melodrive, dass es bei der Nutzung von adaptiver Musik zu 30% mehr Immersion, und 49% mehr Verbindungen zum visuellen Inhalt gibt. Darüber hinaus würden die Testpersonen 42% mehr Zeit im Spiel verbringen als ohne dieses Feature.
Aufgrund des sehr speziellen Einsatzgebietes ist die Bedienung von Melodrive nicht gerade unkompliziert. Eine Vorkenntnis im Programmieren ist hier ein Muss.
HumTap
Wesentlich einfacher und spontaner nutzbar ist die iOS App HumTap. Man summt (engl. to hum) eine Melodie ein klopft (engl. to tap) einen Rhythmus dazu ein und wählt ein Genre. Der fertige Song kann direkt aufs Handy geladen und genutzt werden.
IBM Watson Beat
Das nächste Programm wurde, neben AmperMusic, schon für Chartmusik und für Imagevideos genutzt. IBM Watson Beat hat Musik zu einem Werbefilm des Formel 1 Teams Redbull Racing beigesteuert. Darüber hinaus wurde der Beat des Tracks „Not Easy“ von Whiz Khalifa mit ihm von Alex da Kid produziert.
IBM Watson Beat startete als Hobbyprojekt von Janani Mukundan. Er sah den Zusammenhang zwischen „mathematischen Regeln und menschlicher Kreativität“, welchen Musik ausmacht. So wurde Musik in seine Kernelemente Tonhöhe, Rhythmus, Akkordfolgen und Instrumentation zerlegt und mit Emotionen und Genres verlinkt. Dies diente als Grundlage, auf dem das Programm selbstständig lernte.
Die Bedienung von IBMs Programm ähnelt der von Aiva und AmperMusic: man speist eine 10-sekündige MIDI-Datei ein und wählt eine Grundstimmung aus.
Google Magenta
Ebenfalls mit MIDI-Dateien arbeitet Magenta aus dem Hause Google. Wie HumTap ist es kostenlos und kann auf der Plattform GitHub heruntergeladen werden. Magenta besteht aus mehreren Programmen, welche entweder auf dem Desktop genutzt werden können oder direkt in eine Recording-Software implementiert werden können. Letzteres ist zur Zeit allerdings nur bei Reason möglich.
Folgende Programme sind in Magenta inkludiert:
- Generate: Hierbei handelt es sich um eine Rhythmus- oder Melodiegenerator. Man stellt ein, ob man melodisches oder perkussives Material haben möchte und wählt die Anzahl an Variationen und „Temperature“, also musikalische Abwechslung innerhalb des Stücks. Generate komponiert daraufhin vier Takte als MIDI-Datei.
- Continue: Dieses Programm verlängert MIDI-Dateien auf bis zu 32 Takte. Man speist es mit einer MIDI-Datei (beispielsweise einer, welche man mit Generate erzeugt hat) und stellt Länge, Variation und Temperature ein. Das Ergebnis ist wieder eine MIDI-Datei.
- Interpolate: Dieses Programm bildet aus mehreren Beats einen einzigen mit bis zu 16 verschiedenen Varianten. Auch hier ist das Ergebnis wieder eine MIDI-Datei.
- Groove: Nur für Beats bzw. perkussives Material. Man kann hiermit Timing, Groove und Dynamik im Beat verändern. Ganze ähnelt sehr einem sogenannten „Humanizer“-Programm. Das Ergebnis ist wieder eine MIDI-Datei.
- Drumify: Dieses Programm komponiert einen Beat aufgrund einer Melodie eines Instrumentes, mit welcher man es speist. So kann man Drumify zum Beispiel eine MIDI-Spur einer Bass-Line zur Verfügung stellen und es wird dazu ein passender Beat komponiert. Das Ergebnis, ist wie bei allen anderen Programmen, eine MIDI-Datei.
Insgesamt lässt sich sagen, dass Magenta eher für Produzenten entwickelt wurde. Es wird vorausgesetzt, dass die komponierten Dateien noch weiter verfeinert werden, da sie im Rohzustand trotz hoher Variation sehr abwechslungsarm sind. Darüber hinaus muss wird ein Grundverständnis über MIDI und seine Bearbeitung vorausgesetzt.
Die Eigenständigkeit der KI-Systeme ist durch einen Prozess namens „Deep Learning“ möglich. Hierbei gibt man der Software eine große Menge an Daten. Diese bestehen aus ganzen Musikstücken, Daten zu Klangfarben, Noten, Rhythmus, Emotionen etc. Mit Hilfe dieser Daten lernt die Software und kann – wie eine neuronales Netzwerk – eigenständig neue Verbindungen hinzufügen und somit stetig besser werden. Zusätzlich lernt die KI noch, welche Verbindungen von Melodie und Rhythmik gut klingen und welche nicht. So erschafft sie andauernd neue Melodien und ganze Stücke – wie ein echter Musiker.
Die nächsten beiden Programme sind keine Kompositionshilfen, sondern erleichtern das Abmischen bzw. den Masteringprozess.
Sony CSL
Den Anfang macht CSL (Computer Science Laboratory) von Sony. Obwohl mit dem Spruch „music compositition for everybody“ geworben wird, sind die Programme eher Hilfen für Mixing und Mastering.
Bei der ersten Software, Auto Mix, ist der Name Programm: es mischt und mastert Musik anhand von Algorithmen automatisch nach gewissen Faktoren ab. Eine ähnliche Funktion hat die automatische Mastering-Funktion in iZotopes Software Ozone 8.
Bei den nächsten beiden Programmen handelt es sich um Equalizer, also Programme, mit denen man das Frequenzspektrum beeinflussen kann.
Sonys ProfileEQ ist ein KI-gestützter Equalizer, welcher automatisch gewisse Störfrequenzen erkennt und eliminiert. Dies soll laut Sony auch bei beschädigten Audiodateien funktionieren. Der ResonanceEQ ist ebenfalls KI-gestützt. Mit ihm lassen sich Resonanzen im Audiosignal kontrollieren.
Sonible frei:raum
Ein weiterer KI-gestützter Equalizer ist frei:raum der österreichischen Firma Sonible. Hierbei handelt es sich um ein Programm, welches drei Equalizer mit unterschiedlichen Algorithmen beinhaltet. Der smart:EQ entdeckt ähnlich wie der ProfileEQ Störfrequenzen und eliminiert diese. Mit dem proximity:EQ lassen sich Raumanteile bzw. Hall im Signal entfernen oder hinzufügen. Des Weiteren lässt sich das eigentliche Signal vom Raumanteil trennen und separat bearbeiten.
Einem Signal harmonische oder disharmonische Komponenten hinzufügen kann man zu guter Letzt mit dem entropy:EQ. Hiermit kann z.B. einem Schlagzeug mehr Wucht geben oder eine Stimme verständlicher gestalten, indem man entweder die Transienten (Anschlaggeräusche) oder die Formanten (der eigentliche tonale Inhalt) separat voneinander bearbeitet werden kann.
Deep Flow
Das letzte Beispiel einer künstlichen Intelligenz kommt einer Weiterentwicklung des am Anfang genannten Verbasizers nahe. Das Projekt Deep Flow der Universität Antwerpen kann selbstständig Songtexte erstellen. Dazu wurde es mit zahlreichen Texten aus HipHop und Rap gefüttert.
Das Ergebnis sind realistisch anmutende Texte, welche allerdings noch keinerlei Sinn ergeben. Zwar sei es derzeit möglich „ein paar Lines mit überzeugenden Texten“ zu kreieren, danach verschwindet jedoch jeglicher Zusammenhang. Das hielt die Schöpfer nicht davon ab ein Online-Spiel zu erstellen, in dem man die Texte von Deep Flow und Original-Texte zuordnen kann.
Zusammenfassung
Bei der eben gezeigten Liste zeigt sich die Unterschiedlichkeit in den verschiedenen KI-Systemen. Es gibt Programme für die „klassische“ Musikproduktion wie AmperMusic und Jukedeck, Programme für Videoproduzenten wie Melodrive und Programme für den Laien, die sich einfach bedienen lassen wie HumTap.
Diese Vielschichtigkeit ist jedoch das, was manchen in der Branche großes Kopfzerbrechen bereitet. Die Sorge, dass Musikproduzenten bald durch eine Software ersetzt werden könnten, greift mit jeder Verbesserung der Programme mehr und mehr um sich.
„Willkommen in einer Zukunft, in der jeder schnell und einfach Musik mit Hilfe einer innovativen KI-gestützten Unterstützung komponieren und produzieren kann“ heißt es von Tamer Rashad, CEO von HumTap. Diese Aussage mindert die Sorgen bestimmt nicht.
Taryn Southerns Meinung nach ist „die Entwicklung künstlicher Intelligenz wie ein Tsunami, der langsam auf uns zurollt“. Southern hat mit Hilfe von AmperMusic, Jukedeck und IBM Watson Beat das erste von einer KI mitkomponierte Album geschrieben. Hierbei nutzte sie die drei Programme zur Erstellung der Musik, Text und Melodie kamen von ihr selbst. Sie kopierte jedoch nicht einfach nur die Audiospuren, welche Programme ausspuckten, sondern ordnete sie gemeinsam mit einem Produzenten in eine Songstruktur. Ihr Album „I AM AI“ kann sich man auf YouTube komplett anhören. Ihre Single „Break Free“ ähnelt sehr einem Beitrag für den Eurovision Song Contest, geht jedoch – oder gerade deswegen – sehr leicht ins Ohr.
Ziel der Hersteller ist es jedoch nicht mit Ihren Programmen die Chartmusik umzukrempeln, indem eine KI ganze Hits im Alleingang schreibt. Vielmehr wollen sie die Musik und ihre Produktion demokratisieren und für jeden zugänglich machen. Am Beispiel von Taryn Southern sieht man, dass es auch weiterhin Produzenten geben wird, um einen Song oder ein ganzes Album realisieren zu können.
Darüber hinaus sei KI eher wie ein „Superheldenanzug, den man anziehen kann und mit dem plötzlich Dinge möglich sind, die es vorher nicht waren“. So beschreibt es Valerio Velerado von Melodrive. Man solle die Technik nicht als Bedrohung, sondern als Partner sehen.
Als Vergleich würde sich hier die Fotografie anbieten. Obwohl es durch diverse intelligente Filter und Kameras einfacher denn je ist ein Foto schießen, gibt es nicht weniger professionelle Fotografen. Auch in der Musik gibt es Beispiele für eine anfangs verteufelte Technik, die heute zum Industrie-Standard geworden ist. Die Rede ist von den Recording-Softwares wie ProTools, Logic, Cubase und all den anderen. Ein weiteres Beispiel aus der Musikproduktion ist das Programm Autotune der Firma Antares.
Als sie 1996 vorgestellt wurde, war die Kritik an ihr groß. Sänger müssten überhaupt nicht mehr richtig singen können und Töne treffen können, da man mit Autotune die Tonhöhe korrigieren konnte und so „schiefe“ Töne ausmerzen konnte. Obwohl Autotune heutzutage immer noch vereinzelt einen schlechten Ruf hat, ist es mittlerweile ein kreatives Werkzeug, vor allem im Pop, HipHop und R´n´B.
Für den Zuhörer werden sich neue Welten auftun. Durch KI werden „neue Formen musikalischer Erfahrungen und maßgeschneiderte Kompositionen für Menschen und Momente“ hervorbringen, so Prof. Francisco Tigre Moura. Gleichzeitig betont er, dass sich für Künstler „nicht viel“ verändern wird, da sie noch immer für ihre Leistungen und Kreativität bewundert werden würden. Hierzu passt auch die Aussage von Ed Newton-Rex, dem Gründer von Jukedeck. Seiner Meinung nach wird KI nie in der Lage sein das kreative Genie mancher Künstler zu emulieren.
Fakt ist, dass sich mit Hilfe des „Superheldenanzuges“ KI Musik einfacher komponieren lässt. So kann sich beispielsweise jeder seinen eigenen individuellen Soundtrack oder seine eigene Hintergrundmusik selbst kreieren. Gerade für Podcasts oder Videos auf YouTube und Facebook wäre dies eine noch nie dagewesene Freiheit.
Doch wie reagieren die Zuhörer und Zuschauer auf diese Art der Musik?
In einer Studie der Internationalen Hochschule IBUH zeigt sich, dass Menschen eine negative Wahrnehmung in Bezug auf KI-komponierte Musik aufweisen. Besonders stark fällt diese negative Wahrnehmungen in Genres auf, die „handgemachte“ Musik darstellt, z.B. Singer/Songwriter und orchestrale Arrangements.
Die Studie zeigt jedoch auch, dass diese negative Wahrnehmung abnimmt, wenn es sich bei der Musik um reine Untermalung oder um Werbespots und Jingles handelt. „Darüber hinaus hat die Art und Weise, wie das Lied komponiert wurde, keinen Einfluss darauf, wie die Teilnehmer das Produkt oder die Marke wahrgenommen haben“, so Prof. Dr. Francisco Tigre Moura, Dozent an der IBUH. Für Unternehmen ist KI-Musik daher sehr interessant, um bei Kosten zu sparen, da für Untermalungen von Werbespots beispielsweise kein Musikproduzent mehr beauftragt werden muss.
Das setzt allerdings voraus, dass Musik, welche von einer KI komponiert wurde, weniger kostet, als ein von Menschenhand geschaffenes Stück. Moura startete eine Online-Befragung mit der Frage, ob KI-Musik günstiger sein sollte, als eine von Menschen komponierte. 42% der Teilnehmer meinten, dass Musik günstiger sein sollte, wenn sie von einer KI komponiert wurde. Darüber hinaus sagten 71% aus, dass Labels eine Kennzeichnung für von einer KI komponierten Musik einführen sollten. Mouras Befürchtung ist, dass Label ohne diese Kennzeichnung an Glaubwürdigkeit verlieren, da man in manchen Genres keinen Unterschied mehr zwischen KI-Musik und menschlicher Musik ausmachen kann.
Eine Sache allerdings schafft (noch) nicht: „Wenn Menschen miteinander musizieren entsteht eine Magie“ so Taryn Southern. Es bleibt abzuwarten, ob und wann diese Magie künstlich erzeugt werden kann.
Autor: Hendryk Barnert, B.A. Musikwissenschaft