https://www.pexels.com/de-de/foto/frau-die-in-der-mitte-der-strasse-steht-7409

Der größte Feind für klare Kommunikation? Die Lautstärke im Raum. Wer schon einmal in einem vollen Café einem Gespräch folgen wollte, der weiß, wie schnell Stimmen im Hintergrund verschwimmen. Nun haben Forschende der Universität Washington einen Prototyp geschaffen, der dieses Problem grundlegend lösen könnte: Die Rede ist von KI-unterstützten Kopfhörern, die die gewünschte Stimme automatisch hervorheben und die störenden Geräusche intelligent ausblenden.

Ein neuer Ansatz, um Stimmen gezielt zu filtern

Die Idee, dass man akustische Störfelder softwarebasiert ausblendet, ist nicht neu. Schon vor rund einem Jahr haben die Entwickler der KI-unterstützten Kopfhörer ein System vorgestellt, das eine Art Klangkapsel um den Träger erzeugt hat. Durch diese Klangkapsel wurden weit entfernte Gespräche ausgeschlossen, während Geräusche im unmittelbaren Umfeld verstärkt wurden. Nun hat das Team eine entscheidende Weiterentwicklung geschaffen und die Funktionen auf eine neue Ebene gehoben.

Auf einer Konferenz in China hat man jetzt die ersten KI-Kopfhörer vorgestellt, der nicht nur bestimmte Klangbereiche filtern, sondern auch eigenständig erkennen können, mit welcher Person man gerade spricht. Die Künstliche Intelligenz analysiert das charakteristische Muster der Stimme und hebt diesen individuellen Klang dann hervor. Dadurch werden sämtliche Hintergrundunterhaltungen gleichzeitig stark reduziert und zwar ohne, dass der Nutzer manuell eingreifen muss.

Wie die KI die Aufmerksamkeit der Gesprächspartner erkennt

Die zugrunde liegende Technik beruht auf zwei miteinander verknüpften KI-Modellen. Das erste System ist in der Lage, dass binnen weniger Sekunden die akustische Situation ausgewertet werden kann: Wer spricht? Wie viele Personen sind am Gespräch beteiligt? Diese Informationen werden an ein zweites Modell weitergegeben, das die relevanten Stimmen aus dem gesamten Audio herausfiltert und sodann verstärkt.

Syham Gollakota, Professor an der Paul G. Allen School of Computer Science & Engineering und Mitautor der Studie, hat erklärt, dass bisherige Methoden zur Erkennung von Gesprächen häufig Elektroden im Gehirn benötigten. Das Team hingegen nutzte die charakteristische Abfolge von Rede- und Pausenmustern, die in Gruppengesprächen auftreten würden. Diese seien so konsistent, dass eine KI sie nur anhand akustischer Daten erkennen könne. Somit wurde die invasive Technik überflüssig.

Das System kann nach Angaben des Forschungsteams bis zu vier verschiedene Stimmen gleichzeitig auseinanderhalten. Der notwendige Code wurde bereits als Open Source-Projekt bei GitHub bereitgestellt, damit auch breitere Forschungsgemeinschaften damit arbeiten können.

Erste Tests mit Probanden haben deutliche Tendenzen geliefert

Für erste praktische Erprobungen wurden bereits Experimente mit elf Testpersonen durchgeführt. Diese haben sowohl normale Gespräche als auch Unterhaltungen mit dem KI-Prototypen geführt. Nach Angaben der Entwickler bevorzugten die Teilnehmenden die Variante mit den intelligenten Kopfhörern ungefähr doppelt so häufig. Der Vorteil hat sich hier vor allem in der klaren Trennung zwischen Zielstimme und Umgebungsgeräuschen gezeigt.

Das System steht trotz guter Ergebnisse aber erst am Anfang seiner Entwicklung. So gibt es weiterhin Schwierigkeiten, wenn mehrere Personen gleichzeitig reden oder wenn Sprecher die Gruppe wechseln. Auch ein spontaner Wechsel in der Gesprächsdynamik kann die aktuellen Algorithmen gelegentlich durcheinanderbringen.

Zusätzlich wurde die Funktionalität bislang nur in englischer, japanischer und chinesischer Sprache getestet. Aufgrund der Tatsache, dass Sprachen unterschiedliche prosodische Muster aufweisen, gehen die Forscher davon aus, dass weitere Anpassungen notwendig sein werden, damit die KI-Kopfhörer weltweit für denselben Erfolg im Gespräch sorgen können.

Miniaturisierung als nächste große Herausforderung

Der Eroberungsfeldzug der KI ist noch lange nicht beendet. Nun sind die Kopfhörer an der Reihe. Vor Jahren absolut unvorstellbar, als die KI fast nur im Gaming-Bereich eingesetzt wurde. Die Entwicklung der Technologie hat einige Branchen grundlegend verändert. Heute gibt es etwa teilweise kein KYC im Online Casino, weil auch hier schon mit neuen Methoden gearbeitet wird. Wichtig ist, sich aber im Vorfeld zu vergewissern, dass der Anbieter seriös ist. Auch Support-Mitarbeiter wurden von Chatbots ersetzt und viele Bilder sind KI-generiert.

Während also der Algorithmus bei den KI-Kopfhörern bereits erstaunliche Ergebnisse liefert, wird noch an der Hardware gearbeitet. Der aktuelle Prototyp ist noch weit von einer marktreifen Größe entfernt. Man will das System so kompakt bauen, dass es perspektivisch in Alltagsgeräte wie In Ear-Kopfhörer oder sogar in moderne Hörhilfen integriert werden kann.

Wenn das gelingt, könnte diese Technologie auf lange Sicht Millionen Menschen unterstützen – das beginnt bei Personen mit Hörbeeinträchtigungen bis hin zu Nutzern, die schlichtweg weniger Lärm im Alltag haben wollen.

Teilen.
Einen Kommentar schreiben

Please log in to your forum account to comment

Exit mobile version