My lifestream >> posts >> [DevFest] Artificial intelligence to the rescue of accessibility

Par Aurélie Vache et Guillaume Laforge.

La présentation commence en doublage en langue des signes fait par Guillaume, en plus de la vélotypie faite par le DevFest (bravo!). Et on va parler de le faire aussi par des APIs.

30% des français sont impactés directement ou pas par le handicap. Les personnes en situation de handicap ne sont pas une minorité. Et les aménagements d’accessibilité ne profitent pas seulement aux personnes en situation de handicap.

L’accessibilité n’est pas seulement l’ajout de balises ALT aux images. De la même manière, les assistants vocaux ne sont pas forcément très accessibles.

Google propose des APIs potentiellement utiles (comme l’exemple de Video intelligence API - qui inclut de la transcription en texte). L’appli d’exemple de Guillaume est open-source (TODO demander l’url). Elle est codée en Python

Ca ressemble à du fourchelangue

L’api est très simple à utiliser.

Et l’accessibilité, c’est avant tout un ensemble de moyens permettant d’augmenter l’expérience.

Reconnaissance de la parole

Par exemple, la reconnaissance de la parole a de nombreux usages (messages vocaux, podcasts, centres d’appels). Les sous-titres automatiques ne sont pas parfaits, mais dans l’ensemble la qualité s’améliore.

La reconnaissance de la parole, c’est quand même pas tout neuf : ça commence en 1971, et il y a tout un tas d’innovations sophistiquées (chaînes de markov cachées, réseaux de neurones récurrents, …).

Google fournit une API de transcription de parole en texte, qui marche dans 180 langues. On peut lui ajouter des termes spécifiques (typiquement le vocabulaire technique). On peut faire de lra reconnaissance synchrone ou asynchrone. Par exemple, pour retranscrire les castcodeurs (un podcast un peu long, Guillaume le sait), cette API prendra environ 15 minutes.

Toujours pour les castcodeurs, l’API permet également d’identifier les différents orateurs (avec la diarization). Et ça donne un JSON qu’on peut facilement parser (en Goovy, évidement) pour reconstruire visuellement le dialogue.

Le taux d’erreur est assez bas (4%), mais encore plus élevé que l’humain. Des alternatives existent: sonix.ai, rev.ai, Microsoft cognitive services

Transcription du texte

C’est utile pour de multiples populations (aveugles, dyslexiques, les enfants avant l’âge où ils maîtrisent la lecture). Ca peut servir pour améliorer par exemple le fameux message "rouge piéton" aux intersections, mais aussi pour lire un PDF facilement.

Le synthétiseur de parole peut partir d’un fichier plat (associé à un fichier SSML) pour produire un mp3. L’API peut parler dans une quarantaine de langues, avec plus de 220 voix, avec une vitesse variable. L’API de Google utilise WaveNet.

Aurélie nous fait une démo en GO (Guillaume aurait préféré des legos, même si il aime le logo). Et quand Aurélie tente aily tts "j’aime les gophers", Guillaume nous parle de son amour pour les gaufres. Et le code générant tout ça est quand même sacrément simple : on déclare les paramètres de l’appel, et boum, ça marche.

Ce genre d’API est utilisé par le site de Numerama, le blog d’Amazon, et même un mod pour HeartStone.

Par contre, ce genre d’API n’interprète pas correctement les fancy fonts, ce qui rend le texte illisible.

Dans Android, la fonctionnalité Live Transcribe est une fonctionnalité d’API qui va transcrire ce qu’entend le micro du téléphone en texte (y compris les bruits ambiants). Et Live Caption permet également de sous-titrer tous les sons qui viennent du téléphone (Chrome fournit aussi cette fonctionnalité).

Vision API

Avec cette API, on peut détecter les différents objets présents sur une image. Guillaume a développé avec cette API une application permettant anonymement d’uploader des photos, dans lesquelles il détectera automatiquement les objets et affichera la liste de ces objets. En bonus, on peut détecter automatiquement les "contenus incorrects" (selon la classification faite par Google). Et si vous voulez rendre vos images accessibles, cetre API permettra d’ajouter les balises d’accessibilité.

Attention

Saviez-vous que les logiciels de reconnaissance de la parole reconnaissent mieux les hommes que les femmes ? Et même si Mozilla a lancé le projet Common Voice, il y a encore 77% de voix masculines. Chez Google, le projet Euphonia vise à aider les personnes ayant des voix atypiques (comme le bégaiement d’Aurélie). Apple a un projet de reconnaissance de parole avec bégaiement (dans les podcasts). Chez Amazon, le projet voiceitt vise les mêmes objectifs.

Conclusion

Il n’y a pas besoin d’avoir une thèse pour pouvoir utiliser ces APIs, qui sont déja performantes et peuvent aider le quotidien. Et même si ce sont de belles idées, l’accessibilité n’est pas réservée au machine learning. Et pour Aurélie, la plus grose innovation d’accessibilité est la borne de commande tactile chez McDo. Dans le même ordre d’idée, Doctolib est une belle idée. Même si le site de Doctolib n’est pas parfaitement accessible …