Amélioration de l'accessibilité du contenu Web
Plus de potentiel pour les utilisateurs : l'essor des technologies de traitement du langage
Au cours des dernières décennies, les fonctions d'accessibilité des navigateurs Web ont connu des améliorations importantes. Cette évolution est motivée par la prise de conscience croissante de la nécessité d'une approche inclusive et d'une égalité d'accès à l'information pour les personnes handicapées. Cependant, on considère souvent que les nouvelles fonctionnalités ne sont utiles qu'aux personnes qui souffrent de handicaps évidents comme la cécité ou la surdité.
Mais les personnes ayant un handicap moins visible, comme la dyslexie, le TDAH ou Asperger, peuvent également bénéficier grandement d'outils d'accessibilité comme le lecteur immersif de Microsoft, le logiciel VoiceOver d'Apple, parmi d'autres. Ces outils sont souvent intégrés aux applications et offrent aux utilisateurs une expérience de lecture personnalisable et sans aucune distraction, ce qui favorise grandement la concentration et la compréhension.
Figure 1. Mode lecture de Google Chrome
De même, les personnes qui se rétablissent d'une maladie ou d'un accident, ou qui sont simplement trop fatiguées pour lire, peuvent écouter un lecteur d'écran qui lit le contenu Web. Ce système utilise la technologie de synthèse vocale (TTS), un domaine qui a connu des progrès particulièrement importants. Depuis les débuts des voix robotisées dans les années 1960, le TTS a évolué pour produire une parole presque impossible à distinguer de celle des humains. Ceci est dû aux progrès du traitement numérique des signaux et de la modélisation linguistique, ainsi qu'à l'intégration des techniques d'apprentissage automatique et d'apprentissage profond.
Les personnes qui éprouvent des difficultés à envoyer des SMS sur leur téléphone, d'autre part, peuvent choisir d'utiliser la technologie de reconnaissance vocale (STT) pour convertir les mots prononcés en texte.
De plus en plus d'entre nous utilisent également la reconnaissance vocale automatique (ASR) notamment pour écouter telle ou telle chanson, éteindre les lumières ou passer un coup de téléphone.
Derrière toutes ces innovations se cachent de nombreux brevets que l'on retrouve dans les classes de la CPC, comme les groupes G06F, G10L13 et G06F15.
Figure 2. Les dépôts de demande de brevet classés dans G10L13 (reconnaissance vocale) de 1990 à 2020. Source : PATSTAT. Cliquez sur ce lien pour accéder à la requête.
Ces technologies linguistiques sont largement utilisées dans diverses applications, notamment les assistants virtuels, les systèmes de navigation et les outils d'accessibilité, ce qui change radicalement la façon dont nous interagissons avec elles.
La parole humaine transmet un large éventail d'émotions, c'est pourquoi tenter d'imiter le langage naturel s'avère extrêmement compliqué. Il faut pouvoir non seulement se faire comprendre mais également faire preuve de précision en employant la bonne intonation, le bon rythme, les bons réseaux de contrainte et les bonnes nuances. Reproduire avec précision les caractéristiques phonétiques et syntaxiques uniques des langues et des dialectes constitue un défi supplémentaire. On pourrait également tenter de personnaliser le ton, la vitesse et les accents, ce qui nécessite une technologie sophistiquée basée sur les réseaux neuronaux pour produire un discours naturel et intelligible.
Des développements intéressants ont eu lieu dans ce domaine, et vous pouvez trouver des exemples dans Espacenet en utilisant les symboles de classification suivants :
-
G10L13/00 Synthèse de la parole ; systèmes de synthèse de la parole
-
G10L15/00 Reconnaissance de la parole
-
G06F40/00 Maniement de données en langage naturel
-
G06N3/00 Agencements informatiques fondés sur des modèles biologiques
Par exemple, la demande de brevet WO2019183062A1 décrit un dispositif intelligent d'assistance aux personnes confrontées aux problèmes associés au vieillissement et aux troubles cognitifs/mentaux. Ce dispositif parle au patient en utilisant des voix qui lui sont familières et l'assiste au quotidien à son domicile.
Les appareils de ce type ne doivent pas seulement être capables de gérer des entrées confuses ou médiocres, ils doivent également protéger contre les attaques malveillantes, par exemple sous la forme de deepfake audio.
La recherche et le développement en cours, en collaboration avec des domaines tels que la linguistique, les sciences informatiques et l'intelligence artificielle, permettent aux technologies de traitement du langage de surmonter ces difficultés.
Dans le paysage technologique actuel, qui évolue rapidement, il n'est pas surprenant que de nombreux outils ne soient pas accessibles uniquement aux personnes ayant des déficiences visuelles ou auditives. En effet, la capacité d'utiliser la technologie pour traduire du texte ou du son dans une autre langue constitue une avancée cruciale vers la connectivité générale et universelle. Que ce soit sous forme de commentaires vocaux, de sous-titres ou de remplacement de texte, le savoir et l'information seront accessibles à tout le monde, quelle que soit la langue utilisée. Bon nombre de ces technologies sont classées dans le groupe principal G10L13 (synthèse de la parole ; systèmes de synthèse de la parole) de la CPC. La figure 3 illustre les résultats d'une recherche concernant ce groupe principal de la CPC dans Espacenet (vous pouvez filtrer ces résultats, par exemple par office de dépôt).
Figure 3. Principaux pays candidats pour la synthèse vocale (G10L13/low)
L'intelligence artificielle fait maintenant partie intégrante de presque chaque aspect de nos vies. Les appareils auditifs, par exemple, ont évolué pour inclure diverses caractéristiques qui ne bénéficient pas uniquement aux utilisateurs. Ils peuvent traduire des textes dans d'autres langues, répéter des listes de courses et même réduire le bruit de fond. À l'avenir, ils pourront même compter vos pas ou alerter vos proches en cas d'accident. Bien entendu, ces fonctions existent déjà, mais pas encore dans les petits appareils confortables qui s'intègrent à l'oreille.
Les progrès réalisés en matière de technologie de traitement du langage ont considérablement amélioré l'accessibilité. Les outils qui en résultent sont devenus essentiels pour promouvoir l'inclusivité et améliorer la qualité de vie : de l'aide aux personnes souffrant de déficiences visuelles et de troubles cognitifs jusqu'aux avantages pour les personnes n'ayant aucun besoin spécifique. La technologie continue à évoluer, et elle promet de continuer à réduire encore les écarts en matière d'accessibilité.
Mots-clés : Accessibilité, TTS, STT, ASR, traitement du langage, Espacenet, IA, CPC