Innovation

Die fortgeschrittene KI des MIT zielt darauf ab, die Stimmung eines Gesprächs vorherzusagen

Die fortgeschrittene KI des MIT zielt darauf ab, die Stimmung eines Gesprächs vorherzusagen


Das MIT arbeitet an der Entwicklung eines tragbaren KI-Systems, das die Stimmung eines Gesprächs genau vorhersagen kann.

Das Entschlüsseln der Art und Weise, wie eine Person die Stimmung und den Ton eines Satzes artikuliert, kann die Bedeutung eines Gesprächs erheblich verändern. Letztendlich bleibt die Interpretation seiner Bedeutung dem Hörer überlassen. Die Fähigkeit, die Emotionen zu unterscheiden, die eine Person darstellt, ist ein kritischer Bestandteil des Gesprächs. Allerdings kann nicht jeder zwischen Tönen unterscheiden.

Bei einigen Personen, insbesondere bei Personen, die unter Angstzuständen oder Aspergern leiden, kann ein Gespräch auf eine andere als die beabsichtigte Weise zusammenarbeiten. Die Fehlkommunikation kann soziale Interaktionen extrem stressig machen.

Forscher des MIT-Labors für Informatik und künstliche Intelligenz (CSAIL) und des Instituts für Medizintechnik und Wissenschaft (IMES) sagen, dass sie möglicherweise die Lösung haben: ein tragbares KI-Gerät, das durch aktive Überwachung des Gesprächs erkennen kann, ob ein Gespräch glücklich, traurig oder neutral ist wie eine Person spricht.

„Stellen Sie sich vor, Sie könnten es am Ende eines Gesprächs zurückspulen und die Momente sehen, in denen sich die Menschen um Sie herum am ängstlichsten fühlten“, sagt die Doktorandin Tuka Alhanai. „Unsere Arbeit ist ein Schritt in diese Richtung und schlägt vor, dass wir dies tun könnten nicht so weit weg von einer Welt, in der Menschen einen KI-Sozialcoach direkt in der Tasche haben können. “

Die stimmungsvorhersagenden Wearables analysieren aktiv die Sprachmuster und physiologischen Signale einer Person, um die Töne und Stimmungen zu bestimmen, die in einem Gespräch mit ausgedrückt werden 83 Prozent Genauigkeit. Das System ist so programmiert, dass während eines Gesprächs alle fünf Sekunden ein "Stimmungswert" aufgezeichnet wird.

„Soweit wir wissen, ist dies das erste Experiment, bei dem sowohl physische Daten als auch Sprachdaten auf passive, aber robuste Weise erfasst werden, selbst wenn die Probanden natürliche, unstrukturierte Interaktionen haben“, sagt Ghassemi. "Unsere Ergebnisse zeigen, dass es möglich ist, den emotionalen Ton von Gesprächen in Echtzeit zu klassifizieren."

Deep-Learning-Techniken werden die Leistung des Systems weiter verbessern, da immer mehr Menschen das System verwenden und mehr Daten für die zu analysierenden Algorithmen erstellen. Um die Privatsphäre des Benutzers zu schützen, werden die Daten lokal auf einem Gerät verarbeitet, um mögliche Datenschutzverletzungen zu vermeiden. Es können jedoch weiterhin Datenschutzbedenken bestehen, da das Gerät möglicherweise die Gespräche von unscheinbaren Personen aufzeichnen kann.

Wie das Gerät funktioniert

Frühere Studien, in denen die Emotionen eines Gesprächs untersucht wurden, erforderten von einem Teilnehmer, eine bestimmte Emotion künstlich auszuleben. Um mehr organische Emotionen zu erzeugen, ließen die MIT-Forscher die Teilnehmer stattdessen eine fröhliche oder traurige Geschichte erzählen.

[Bildquelle:MITCSAIL / YouTube]

Die Teilnehmer der Studie trugen ein Samsung Simband - ein Gerät, das hochauflösende physiologische Wellenformen erfassen kann, um viele Attribute wie Herzfrequenz, Blutdruck, Blutfluss und Hauttemperatur zu messen. Das Gerät zeichnet auch gleichzeitig Audiodaten auf, die dann analysiert werden, um Ton, Tonhöhe, Energie und Wortschatz zu bestimmen.

„Die Verwendung von Verbrauchermarktgeräten durch das Team zur Erfassung physiologischer Daten und Sprachdaten zeigt, wie nahe wir daran sind, solche Werkzeuge in alltäglichen Geräten zu haben“, sagt Björn Schuller, Professor und Lehrstuhl für komplexe und intelligente Systeme an der Universität Passau in Deutschland. "Technologie könnte sich bald viel emotionaler oder sogar" emotionaler "anfühlen."

MIT-Forscher zeichneten 31 Gespräche auf und trainierten anhand der Daten zwei separate Algorithmen. Der erste leitet das Gespräch ab, um es als glücklich oder traurig einzustufen. Der sekundäre Algorithmus bestimmt, ob die Konversation in Intervallen von 5 Sekunden positiv, negativ oder neutral ist.

„Das System erkennt, dass beispielsweise die Stimmung in der Texttranskription abstrakter war als die Rohdaten des Beschleunigungsmessers“, sagt Alhanai. „Es ist bemerkenswert, dass eine Maschine ohne signifikante Eingabe annähern kann, wie wir Menschen diese Wechselwirkungen wahrnehmen uns als Forscher. "

Funktioniert es?

Überraschenderweise bestimmten die Algorithmen erfolgreich die meisten Emotionen, die ein Mensch während eines Gesprächs erwarten würde. Die Ergebnisse des Modells waren jedoch nur 18 Prozent über dem Zufall. Trotz des geringen Prozentsatzes bleibt die neue Technik voll 7,5 Prozent genauer als bestehende Ansätze.

Leider ist das Modell immer noch zu unterentwickelt, um als Social Coach von praktischem Nutzen zu sein. Die Forscher planen jedoch, die Datenerfassung zu erweitern, indem das System auf kommerziellen Geräten wie der Apple Watch verwendet werden kann.

"Unser nächster Schritt besteht darin, die emotionale Granularität des Algorithmus so zu verbessern, dass er langweilige, angespannte und aufgeregte Momente genauer hervorhebt, anstatt Interaktionen nur als" positiv "oder" negativ "zu kennzeichnen", sagt Alhanai. "Die Entwicklung von Technologien, die den Puls menschlicher Emotionen messen können, kann die Art und Weise, wie wir miteinander kommunizieren, dramatisch verbessern."

SIEHE AUCH: Gefäße, die Musik, die durch physiologische Signale von Emotionen erzeugt wird

Geschrieben von Maverick Baker


Schau das Video: Podcast #2: Künstliche Intelligenz - Funktion, Anwendung und Zukunft der KI