pte20210208002 Technologie/Digitalisierung, Kultur/Lifestyle

KI "Audeo" vertont stumme Klavier-Videos

Eigenentwicklung der University of Washington spielt überraschend gut erkennbare Stücke


Tastenanschlag: KI interpretiert Klang (Foto: Iguanat, pixabay.com)
Tastenanschlag: KI interpretiert Klang (Foto: Iguanat, pixabay.com)

Seattle (pte002/08.02.2021/06:05)

Forscher an der University of Washington (UW) https://washington.edu haben eine KI entwickelt, die stumme Videos eines Klavierspielers nachvertont. „Audeo" sieht dazu in Vogelperspektive, welche Tasten der Pianist anschlägt, und erstellt via Synthesizer dazu passende Klänge. Auf diese Art spielt die KI überraschend gut: In immerhin 86 Prozent der Fälle können Audioerkennungs-Apps ausmachen, welches Stück die KI spielt – fast so oft wie beim Originalton der Videos.

Genau und kreativ

„Musik zu schaffen, die klingt, als könnte sie aus einem Konzert stammen, galt bislang als unmöglich", sagt Eli Shlizerman, UW-Professor für Angewandte Mathematik, Elektrotechnik und Informatik. Um aus einem Video der Anschläge eines Pianisten etwas zu synthetisieren, muss ein System nämlich erst optische Hinweise exakt erkennen und dann recht kreativ interpretieren, welchen Klang diese auslösen. „Das wir Musik geschafft haben, die ziemlich gut klingt, was eine Überraschung", meint daher Shlizerman.

Audeo erkennt in Vogelperspektiv-Videos zunächst, welche Tasten angeschlagen werden. Das alleine würde allerdings keine gut klingende Musik liefern. Daher bereinigt die KI dann die Daten und fügt zusätzliche Information hinzu, beispielsweise wie stark ein Anschlag ist. „Der zweite Schritt ist, wie wenn ein Lehrer sich die Musik eines Kompositionsstudenten ansieht und hilft, sie zu verbessern", sagt Shlizerman. Mittels angeschlossener Synthesizer-App macht die KI dann Musik. Die Forscher haben das System dann mit rund 172.000 Frames aus YouTube-Videos des Pianisten Paul Barton trainiert, der Klassiker von Komponisten wie Bach und Mozart spielt.

Überraschend echt

Um zu prüfen, ob Audeo so wirklich gelernt hat gut zu spielen, hat das Team es knapp 19.000 weitere Barton-Frames interpretieren lassen. Was der Pianist in diesen spielt, erkennen Apps wie SoundHound zu 93 Prozent. Dass auch die KI-Rekonstruktion immerhin 86 Prozent Trefferquote erreicht zeigt, wie gut diese die Bilder der Tastenanschläge erfassen und interpretieren kann – sie ist zwar kein Starpianist, spielt aber meist gut erkennbare Klavierstücke. Offen ist allerdings noch, ob das auch für andere Pianisten als Barton und beliebige Klavier funktioniert.

Die Forscher wollten mit Audeo zunächst einfach sehen, ob eine KI wirklich stumme Klavier-Videos sinnvoll vertonen kann. Dass das geklappt hat, könnte neue Arten ermöglichen, sich mit Musik auseinanderzusetzen. So könnte Audeo laut Shlizerman ein virtuelles Piano ermöglichen, bei dem eine Kamera nur die Hände einer Person filmt. In Verbindung mit einer Vogelperspektiv-Kamera auf einem realen Instrumente wiederum wäre denkbar, dass Audeo Klavierschüler beim Lernen unterstützt.

Zur Projektwebsite mit Audio-beispielen: http://faculty.washington.edu/shlizee/audeo

(Ende)
Aussender: pressetext.redaktion
Ansprechpartner: Thomas Pichler
Tel.: +43-1-81140-314
E-Mail: pichler@pressetext.com
Website: www.pressetext.com
|