Verbesserung der Barrierefreiheit von Webinhalten
Neue Möglichkeiten für Benutzer: bedeutsame Entwicklungen im Bereich der Sprachverarbeitungstechnologien
Im Bereich der Barrierefreiheitsfunktionen für Webbrowser wurden in den letzten Jahrzehnten deutliche Fortschritte gemacht. Diese Entwicklung wurde durch das wachsende Bewusstsein für Inklusion und gleichberechtigten Zugriff auf Informationen für Menschen mit Behinderungen angetrieben. Viele der neuen Funktionen werden jedoch fälschlicherweise nur als relevant gesehen für Menschen mit offensichtlicher Behinderung wie Blindheit oder Taubheit.
Personen mit weniger offensichtlichen Einschränkungen wie Dyslexie, ADHS oder Asperger-Syndrom können jedoch ebenfalls einen großen Nutzen aus barrierefreien Funktionen ziehen, zu denen beispielsweise der Immersive Reader von Microsoft, VoiceOver von Apple oder die Reading Mode-App von Google gehören. Diese Tools sind oft in Anwendungen integriert und bieten dem Benutzer ein anpassbares Leseerlebnis ohne ablenkende Elemente, das Konzentration und Aufmerksamkeit fördert.
Abbildung 1. Google Chrome Reading mode
Bei Krankheit, nach einem Unfall oder für Personen, die einfach zu müde zum Lesen sind, sind Sprachausgabefunktionen, die den Webinhalt vorlesen, eine weitere nützliche Hilfe. Diese Funktionen nutzen die sogenannte TTS-Technologie (Text-to-Speech, Umwandlung von Text in Sprache), bei der besonders große Fortschritte verzeichnet wurden. TTS hat sich seit den ersten Versuchen mit roboterhaften Stimmen in den 1960er Jahren zu einer Technologie entwickelt, die eine natürliche Sprachausgabe erzeugt, die kaum von einer menschlichen Stimme zu unterscheiden ist. Dazu beigetragen haben vor allem die Entwicklung im Bereich der Verarbeitung digitaler Signale mittels DSP (Digital Signal Processor) und der Sprachmodellierung sowie die Integration von maschinellem Lernen und Deep-Learning-Methoden.
Umgekehrt können Personen, die sich mit der Texteingabe auf dem Telefon schwertun, STT-Technologien (Speech-to-Text, Umwandlung von Sprache in Text) nutzen, die gesprochene Wörter in Text umwandeln.
Immer mehr Menschen nutzen außerdem Funktionen der automatischen Spracherkennung (ASR, Automatic Speech Recognition), um beispielsweise ein bestimmtes Lied anzuhören, das Licht zu dimmen oder eine Nummer zu wählen.
Hinter all diesen Innovationen stecken zahlreiche Patente in CPC-Klassen wie G06F, G10L13 und G06F15.
Abbildung 2. Eingereichte Patentanmeldungen in Klasse G10L13 (Text-to-Speech) von 1990 bis 2020. Quelle: PATSTAT. Klicken Sie auf diesen Link, um auf die Abfrage zuzugreifen.
Solche Sprachtechnologien werden in verschiedenen Anwendungen genutzt, zum Beispiel in virtuellen Assistenten, Navigationssystemen und barierefreien Funktionen, und ändern grundlegend die Art und Weise, wie wir mit diesen Tools interagieren.
Die menschliche Sprache übermittelt eine Fülle an Gefühlen und es ist äußerst kompliziert, sie so nachzuahmen, dass die Ausgabe nicht nur verständlich ist, sondern auch Aussprache, Tonfall, Rhythmus, Betonung und Nuancen stimmen. Die genaue Wiedergabe einzigartiger phonetischer und syntaktischer Merkmale verschiedener Sprachen und Dialekte ist eine weitere Herausforderung. Wenn dazu noch die Tonhöhe, die Sprechgeschwindigkeit und der Akzent personalisiert werden sollen, sind ausgefeilte, auf neuronalen Netzen basierende Technologien erforderlich, um eine natürliche und verständliche Sprachausgabe zu erzeugen.
In diesem Bereich gibt es einige interessante Entwicklungen, zu denen
-
G10L13/00 Sprachsynthese; Umwandlung von Text in Sprache
-
G10L15/00 Spracherkennung
-
G06F40/00 Behandlung natürlicher Sprachdaten
-
G06N3/00 Rechenanlagen auf der Grundlage biologischer Modelle
WO2019183062A1 beschreibt beispielsweise ein intelligentes Gerät, das Menschen mit altersbedingten Beschwerden oder kognitiven/geistigen Störungen unterstützen kann. Die Sprachausgabe des Geräts ahmt die Stimmen von Personen nach, die dem Benutzer vertraut sind, und unterstützt ihn beim Bedienen von Geräten im Haushalt.
All diese Geräte müssen nicht nur in der Lage sein, unklare oder dürftige Eingaben zu verarbeiten, sondern auch vor böswilligen Angriffen schützen, zum Beispiel in Form von Deepfake-Audioinhalten.
Dank ständiger Forschung und Entwicklung und der Zusammenarbeit mit Bereichen wie Sprachwissenschaft, Informatik und künstliche Intelligenz können Sprachverarbeitungstechnologien solche Herausforderungen meistern.
In der heutigen, sich rasant weiterentwickelnden Technologielandschaft ist es kein Wunder, dass viele Tools nicht nur für Menschen mit Seh- oder Hörbehinderungen verfügbar sind. Die Möglichkeit, Text oder Stimme mithilfe von Technologie in eine andere Sprache zu übersetzen, ist ein großer Beitrag zur allgemeinen globalen Vernetzung – ob in Form von Begleitkommentaren, Legenden, Untertiteln oder Alternativtexten, macht sie Wissen und Informationen unabhängig von der verwendeten Sprache für alle zugänglich. Viele dieser Technologien sind in der CPC-Hauptgruppe G10L13 (Sprachsynthese; Umwandlung von Text in Sprache) klassifiziert. Abbildung 3 zeigt Suchergebnisse für diese CPC-Hauptgruppe in Espacenet (Sie können diese Ergebnisse filtern, beispielsweise nach Annahmestelle).
Abbildung 3. Länder mit den meisten Patentanmeldungen für die Umwandlung von Text in Sprache (G10L13/low)
Künstliche Intelligenz ist inzwischen in fast alle Aspekte unseres Lebens eingetreten. Hörgeräte können verschiedene Funktionen bieten, die nicht nur Menschen mit Hörbehinderung helfen. Sie können Text in andere Sprachen übersetzen, Einkaufslisten vorlesen und Hintergrundgeräusche reduzieren. In Zukunft können Hörgeräte möglicherweise sogar Ihre Schritte zählen oder Helfer im Falle eines Unfalls benachrichtigen. Solche Funktionen gibt es zwar bereits, aber noch nicht in kleinen Geräten, die bequem in ein Ohr passen.
Fortschritte bei Sprachverarbeitungstechnologien haben wesentlich zur Verbesserung der Barrierefreiheit beigetragen. Die entwickelten Tools sind wichtige Hilfen zur Förderung von Inklusion und zur Verbesserung der Lebensqualität. Sie können Menschen mit Sehstörung oder kognitiven Störungen unterstützen, sind aber auch eine große Hilfe für Benutzer ohne besondere Bedürfnisse. Die Technologien werden kontinuierlich weiterentwickelt und werden Lücken in der Barrierefreiheit in Zukunft weiter reduzieren.
Schlagwörter: Barrierefreiheit, TTS, STT, ASR, Sprachsynthese, Spracherkennung, Sprachausgabe, Sprachverarbeitung, Espacenet, KI, CPC, CPC text categoriser