Der multimodale Lotsenarbeitsplatz “TriControl” demonstriert ein neuartiges Konzept für eine natürliche und intuitive Mensch-Maschine-Interaktion in der Domäne der Flugsicherung. Darin werden Sprach-, Blick- und Gestenerkennung kombiniert und integriert.
Eine Mensch-Maschine-Schnittstelle (MMS) ist der Teil eines Computersystems, der Informationen verschiedener Sensoren und Kommunikationskanäle interpretiert und aggregiert. Multimodale MMS erlauben eine mannigfaltige und natürliche Art der Interaktion über Sprache, Gesten und Blicke. Multimodale MMS können
Die Entwicklung multimodaler MMS-Konzepte im ATM-Umfeld befindet sich noch in einem sehr frühen Stadium. Das DLR hat bereits international Aufmerksamkeit in der Luftverkehrsmanagement-Gemeinschaft erhalten mit seinen führenden Forschungsaktivitäten in den Bereichen von Blickerkennung [1], Multi-Touch-Gestenerkennung [2] und Spracherkennung [3].
Motiviert durch die oben genannten Vorteile und die vielversprechenden Forschungsresultate multimodaler Systeme, entwickelte das DLR TriControl, einen multimodalen Lotsenarbeitsplatz für Anfluglotsen mit dem Fokus auf den drei Interaktionstechnologien: der automatischen Spracherkennung, dem Erkennen von Multi-Touch-Gesten und der Blickerkennung. Das primäre Ziel von TriControl ist, dass der menschliche Operateur Daten schneller und darüber hinaus intuitiver in ein technisches System eingeben kann.
Blickerkennung
Eine der Hauptaufgaben eines Anfluglotsen ist das Monitoring seines Radar-Displays. In TriControl gehen wir davon aus, dass das Luftfahrzeuglabel, auf welches der Lotse gerade schaut, seinen Aufmerksamkeitsfokus bildet. Die permanente Blickerkennung berechnet die Display-Position, auf die der Lotse gerade schaut und korreliert sie mit den Positionen der dargestellten Radar-Label auf dem Display. In TriControl wird die Blickerkennung folglich zum Auswählen von Luftfahrzeugen bzw. deren Labeln angewandt.
Spracherkennung
Auch wenn Datenlink-Technologien bereits für den Informationsaustausch zwischen Lotsen und Piloten genutzt werden, findet der größte Anteil der Kommunikation noch immer über den Sprach- und damit Funkkanal statt. Spracherkennungsalgorithmen können Kommandos aus dem Flugsicherungsvokabular mit ausreichender Zuverlässigkeit extrahieren. TriControl nutzt die Spracherkennung, um gesprochene Werte zu detektieren.
Gestenerkennung
In Kombination mit Gesten auf einem Multi-Touch-Display kann der Lotse Kommandos zu dem ausgewählten Luftfahrzeug geben. Durch einen Satz von Ein- und Zwei-Finger-Gesten bestimmt der Lotse den Typ des Kommandos (z.B. Höhe, Geschwindigkeit, Richtung des Luftfahrzeugs). Die Richtung der Geste ergibt dann das spezifische Kommando dieses Typs (z.B. Steigflug/Sinkflug bzgl. eines Höhenkommandos).
Dadurch, dass die drei Interaktionsmodalitäten gleichzeitig benutzt werden können, kann das Lotsenkommando schneller an den Piloten übermittelt und in das Flugsicherungssystem eingegeben werden. Als Konsequenz kann der Lotse effizienter arbeiten.
Zukünftige Interaktionsmöglichkeiten
Andere Kombinationen von Interaktionsmodalitäten können zukünftig getestet und miteinander verglichen werden. Die Zuverlässigkeit und Genauigkeit der Erkennung müssen dabei sehr hoch sein, um den Sicherheitsstandards der Flugsicherungsdomäne gerecht zu werden. In einem nächsten Schritt soll der Lotse sich die Modalitäten aussuchen können, über die er mit der MMS interagiert. Potentielle Fehler des Lotsen sollen durch redundante Datenströme vermieden werden – beispielsweise über den Abgleich zwischen gesprochenem und anvisiertem dargestellten Luftfahrzeugnamen.
Mit der Infrastruktur des DLR-Instituts für Flugführung können verschiedenartige Konfigurationen des multimodalen Lotsenarbeitsplatzes in realistischen Simulationen mit Hilfe unterschiedlicher Szenarien getestet werden