API Speech-To-Text : quelles sont ses avantages et ses limites ?

Emmanuelle ABOAF

Ma présentation version speech-to-text

bonjour je m'appelle emmanuel et je suis développeuse chez des hub des robes et un et binet de haïti spécialisée dans le développement le lahoud n'y a l'abbaye et la data mes sacs préférés sont ces sharp dunet et anular le bail gens entrent régulièrement et t'as un problème de time à haute je m'intéresse également aux aspects de l'intelligence artificielle notamment le speech tout texte thème on va aborder aujourd'hui étant sourde je lutte jour pour la cessibilité dans mon monde idéal tout doit être accessible aussi bien dans la vraie vie et dans le web

Mon expérience

Démos

Démo 1 : Samuel

Démo 2 : Anne-Laure

Démo 3 : Emmanuelle

Biais

Problème de biais

YouTube’s auto captions consistently performed better on male voices than female voice.

More recent research has found the same effect: ASR systems make more errors for Black speakers than white speakers

For every hundred words, the systems made 19 errors for white speakers compared to 35 errors for Black speakers — nearly twice as many. That is 35% Black speakers versus 19% White speakers.

Why does this bias exist ? (...) The underlying reason may be that databases have lots of white male data, and less data on female and minority voices. For example, TED Talks are frequently analyzed by speech scientists, and 70% of TED speakers are male.

Common Voice

Datasets des voix pour la langue française
Version Date Nombre de voix Répartition de voix masculines * Répartition de voix féminines *
1.0 25/02/2019 1 697 72% 7%
2.0 11/06/2019 2 985 70% 9%
3.0 24/06/2019 3 005 70% 9%
4.0 10/12/2019 8 164 65% 12%
5.1 22/06/2020 11 960 65% 11%
6.1 11/12/2020 12 953 65% 10%
7.0 21/07/2021 15 391 63% 11%
8.0 19/01/2022 16 082 62% 11%
9.0 27/04/2022 16 291 62% 10%
10.0 04/07/2022 16 510 62% 10%
11.0 21/09/2022 16 785 61% 10%

* Le reste des voix proviennent des voix anonymes

Chaque voix compte.

Y compris :

  • celles des femmes
  • celles des personnes issues de la minorité
  • celles des personnes ayant des accents
  • celles des personnes ayant des voix atypiques ou déformées
  • celles des personnes ayant des troubles du langage

La langue française

Nouvelle démo de Samuel

La langue française

  • Une langue riche et complexe ;
  • avec ses règles de grammaire, de conjugaison et d'orthographe ;
  • ses homonymes
  • des noms communs ;
  • des noms propres ;
  • des acronymes ;
  • le langage métier, fonctionnel et technique ;
  • les termes franco-anglais ;
  • et même le verlan.
Quelques perles des sous-titres automatiques
Mot dit Mot transcrit automatiquement
timeout time à haute / time août
IT Haïti
tool in actions tooline actions
stack sac
validisme vally 10 mhz
demande entrante demande en 30
snippets slips
speaker piqueur
DevRel frêles
sketchstorm tempête
speech-to-text speech tout texte
Chat GPT Chat j'ai pété

La conjugaison

Nouvelle démo d'Anne-Laure

  • Peut-on accorder les verbes en se basant sur la voix de la personne ?
    • Comment deviner le sexe de la personne avec les prénoms unisexes ou qui se ressemble :
    • Dominique ou Camille est-elle une femme ou est-il un homme ?
    • Est-ce Emmanuelle ou Emmanuel ?
    • Annie ou Hany ?

Les mots grossiers ou familiers

  • Sans paramétrage, les mots grossiers et familiers sont automatiquement censurés.
  • Certains mots non grossiers sont censurés car à cause de la traduction automatique français vers anglais, ils peuvent devenir grossiers.
  • Censurer les mots grossiers ne rend pas l'information accessible à tous.

La ponctuation

Qui parle ?

Sous-titrage automatique et surdité

  • Une suppléance mentale très élevée quand les sous-titres sont incomplètes ou incorrectes : on essaie de combler les trous ;
  • Des solutions de sous-titrage automatique très inégales des unes des autres : on cherche toujours le meilleur outil ;
  • Les voix atypiques et accents non prises en compte dans les traitements de données : l'IA ne comprend pas les personnes sourdes ou malentendantes.

Conséquence directe : les sous-titres automatiques non correctes ont un impact très important sur la vie quotidienne et professionnelle de la personne sourde ou malentendante.

Conclusion

AI is good but it’s not that good !

Tim Cook à l'université Gallaudet, le 14 mai 2022.

Mélanger l'intelligence artificielle et l'intelligence humaine

pour rendre l'expérience encore meilleure.

    Ce qui signifie que vous pouvez :
  • Utiliser les outils automatiques
  • et corriger les fautes générées de la reconnaissance vocale
    Si vous voulez que la reconnaissance vocale fonctionne bien pour vous :
  • Soyez près de votre micro (et par la même occasion, ayez un bon micro)
  • Minimiser les bruits en arrière-plan
  • Parlez très clairement et pas trop vite

Le sous-titrage en temps réel au quotidien

sur vos ordinateurs, tablettes et téléphones.

Critères RGAA

Critère 4.1. Chaque média temporel pré-enregistré a-t-il, si nécessaire, une transcription textuelle ou une audiodescription (hors cas particuliers) ?

Critère 4.2. Pour chaque média temporel pré-enregistré ayant une transcription textuelle ou une audiodescription synchronisée, celles-ci sont-elles pertinentes (hors cas particuliers) ?

Critère 4.3. Chaque média temporel synchronisé pré-enregistré a-t-il, si nécessaire, des sous-titres synchronisés (hors cas particuliers) ?

Critère 4.4. Pour chaque média temporel synchronisé pré-enregistré ayant des sous-titres synchronisés, ces sous-titres sont-ils pertinents ?

Règle Opquast

Règle n° 116 - Chaque contenu audio et vidéo est accompagné de sa transcription textuelle.

Les vidéos et sons contiennent des textes qui ne sont pas perceptibles par les non-voyants, les sourds ou les moteurs de recherche. Cette bonne pratique montre comment faire en sorte que ces contenus soient lisibles et indexés.

Expérimentation de France TV Lab

Testez et évaluez la solution de sous-titrage automatique de franceinfo

Ressources techniques

Autres ressources

Merci !