Intelligence artificielle et surdité

Emmanuelle ABOAF

AFDEO – 8 février 2023

Mon expérience

Démos

Démo 1 : Samuel

Démo 2 : Anne-Laure

Démo 3 : Emmanuelle

Biais

Problème de biais

YouTube’s auto captions consistently performed better on male voices than female voice.

More recent research has found the same effect: ASR systems make more errors for Black speakers than white speakers

For every hundred words, the systems made 19 errors for white speakers compared to 35 errors for Black speakers — nearly twice as many. That is 35% Black speakers versus 19% White speakers.

Why does this bias exist ? (...) The underlying reason may be that databases have lots of white male data, and less data on female and minority voices. For example, TED Talks are frequently analyzed by speech scientists, and 70% of TED speakers are male.

Common Voice

Datasets des voix pour la langue française
Version Date Nombre de voix Répartition de voix masculines * Répartition de voix féminines *
1.0 25/02/2019 1 697 72% 7%
2.0 11/06/2019 2 985 70% 9%
3.0 24/06/2019 3 005 70% 9%
4.0 10/12/2019 8 164 65% 12%
5.1 22/06/2020 11 960 65% 11%
6.1 11/12/2020 12 953 65% 10%
7.0 21/07/2021 15 391 63% 11%
8.0 19/01/2022 16 082 62% 11%
9.0 27/04/2022 16 291 62% 10%
10.0 04/07/2022 16 510 62% 10%
11.0 21/09/2022 16 785 61% 10%

* Le reste des voix proviennent des voix anonymes

Chaque voix compte.

Y compris :

  • celles des femmes
  • celles des personnes issues de la minorité
  • celles des personnes ayant des accents
  • celles des personnes ayant des voix atypiques ou déformées
  • celles des personnes ayant des troubles du langage

La langue française

Nouvelle démo de Samuel

La langue française

  • Une langue riche et complexe ;
  • avec ses règles de grammaire, de conjugaison et d'orthographe ;
  • ses homonymes
  • des noms communs ;
  • des noms propres ;
  • des acronymes ;
  • le langage métier, fonctionnel et technique ;
  • les termes franco-anglais ;
  • et même le verlan.

La conjugaison

Nouvelle démo d'Anne-Laure

  • Peut-on accorder les verbes en se basant sur la voix de la personne ?
    • Comment deviner le sexe de la personne avec les prénoms unisexes ou qui se ressemble :
    • Dominique ou Camille est-elle une femme ou est-il un homme ?
    • Est-ce Emmanuelle ou Emmanuel ?
    • Annie ou Hany ?

Le français n'est pas une langue neutre contrairement à l'anglais.

Les mots grossiers ou familiers

  • Sans paramétrage, les mots grossiers et familiers sont automatiquement censurés.
  • Certains mots non grossiers sont censurés car à cause de la traduction automatique français vers anglais, ils peuvent devenir grossiers.
  • Censurer les mots grossiers ne rend pas l'information accessible à tous.

La ponctuation

Qui parle ?

Intelligence artificielle et surdité

  • Une suppléance mentale très élevée quand les sous-titres sont incomplètes ou incorrectes : on essaie de combler les trous ;
  • Des solutions de sous-titrage automatique très inégales des unes des autres : on cherche toujours le meilleur outil ;
  • Les voix atypiques et accents non prises en compte dans les traitements de données : l'IA ne comprend pas les personnes sourdes ou malentendantes.

Conséquence directe : les sous-titres automatiques non correctes ont un impact très important sur la vie quotidienne et professionnelle de la personne sourde ou malentendante.

Conclusion

AI is good but it’s not that good !

Tim Cook à l'université Gallaudet, le 14 mai 2022.

Mélanger l'intelligence artificielle et l'intelligence humaine

pour rendre l'expérience encore meilleure.

    Ce qui signifie que vous pouvez :
  • Utiliser les outils automatiques
  • et corriger les fautes générées de la reconnaissance vocale
    Si vous voulez que la reconnaissance vocale fonctionne bien pour vous :
  • Soyez près de votre micro (et par la même occasion, ayez un bon micro)
  • Minimiser les bruits en arrière-plan
  • Parlez très clairement et pas trop vite

Le sous-titrage en temps réel au quotidien

sur vos ordinateurs, tablettes et téléphones.

Expérimentation de France TV Lab

Testez et évaluez la solution de sous-titrage automatique de franceinfo

Merci !