Des solutions numériques
pour piloter l’action publique

CamemBERT, FlauBERT, le traitement automatique du langage à la française

Le traitement automatique du langage naturel (TALN) ou Natural Language Processing (NLP) est une branche de l'intelligence artificielle qui se concentre sur la compréhension et le traitement du langage humain.

Le déferlement d’outils d’intelligence artificielle auquel on assiste depuis quelques années repose sur la capacité à manipuler le langage naturel. L’objectif : créer des interactions homme-machine intuitives et automatiser diverses tâches grâce au langage. Pour obtenir des résultats pertinents sur un modèle de NLP, il est indispensable de l’entraîner sur une langue spécifique afin d’en saisir toute la complexité. Or, les principaux modèles existants aujourd’hui adoptent des approches multilingues, et donc nécessairement génériques.

Les initiatives CamemBERT et FlauBERT visent précisément à pallier cette lacune en créant un modèle de langage spécifiquement conçu pour le français. On fait le point sur le traitement du langage naturel dans la langue de Molière.

Les applications du traitement automatique du langage naturel

Le NLP transforme la manière dont nous interagissons avec les machines et offre un éventail d’applications très large : des assistants vocaux (Siri, Alexa, Google Assistant, etc.) aux outils de génération de texte (ChatGPT, Mistral AI…) en passant par les Chatbots et l’analyse d’informations. Ces applications ont un potentiel de transformation important dans de nombreux secteurs :

  • Santé & Recherche médicale :

L’IA va rendre de grands services aux médecins et aux chercheurs grâce au développement du TALN : analyse des dossiers patients pour assister les professionnels de santé dans la prise de décision, analyse des publications scientifiques, etc.

  • Finance & Économie :

Analyse des rapports financiers et des signaux faibles (comme des discussions sur les réseaux sociaux) pour anticiper les mouvements de marché.

  • Marketing & Commerce :

Analyse des sentiments (sentiment analysis) à travers les interactions avec les clients (mails, appels, avis…) pour s’adapter aux besoins du marché et personnaliser l’expérience client.

  • Éducation :

L’IA frappe à la porte des écoles, avec des outils d’aide à la rédaction et à la correction, de détection du plagiat, d’apprentissage personnalisé, d’amélioration de l’accessibilité ou encore d’analyse des données éducatives pour identifier les tendances, etc.

 

BERT : le modèle de NLP conçu par Google

BERT (Bidirectional Encoder Representations from Transformers) est un modèle de traitement du langage naturel développé par Google en 2018. La particularité de BERT réside dans son analyse du contexte bidirectionnel, c’est-à-dire qu’il examine les mots précédents et suivants chaque mot pour comprendre le sens de la phrase. Cette approche diffère des modèles antérieurs qui analysaient le texte dans une seule direction, limitant leur compréhension du contexte.

BERT a largement amélioré les performances dans de nombreuses tâches de TALN, mais il présente des limites lorsqu’il s’agit de langues autres que l’anglais. Pour saisir les nuances et spécificités linguistiques de notre langue, il était nécessaire d’entraîner le modèle sur un corpus spécifique.

CamemBERT, FlauBERT : la modélisation de la langue française à un niveau avancé

Fruit d’une collaboration entre des chercheurs de l’INRIA, de Facebook AI Research, de la Sorbonne et du CNRS, CamemBERT vise à surmonter les limitations de BERT pour le français, en proposant un modèle pré-entraîné spécifiquement adapté aux subtilités de la langue française : polysémie, nuances syntaxiques et morphologiques, diversité stylistique…

BERT a largement amélioré les performances dans de nombreuses tâches de TALN, mais il présente des limites lorsqu’il s’agit de langues autres que l’anglais.

 

Le modèle a bénéficié d’un entraînement sur un vaste ensemble de textes en français issus de multiples sources :

  • Wikipedia en français
  • Archives du web en français
  • Corpus littéraire
  • Des transcriptions de débats parlementaires
  • Textes juridiques et législatifs
  • Articles de presse

 

Le modèle CamemBERT a démontré d’excellents résultats pour relever les défis posés par le traitement automatique du français. Le modèle a démontré une amélioration significative des performances et établi un nouvel état de l’art dans le TALN en français. Avec 22 millions de téléchargements depuis sa publication en 2019, CamemBERT est le modèle de traitement automatique de langage naturel le plus utilisé pour les entreprises françaises.

Quelques semaines après la mise au point du modèle CamemBERT, c’est le modèle FlauBERT (French Language Understanding Evaluation Benchmark) qui a vu le jour. Suivant une configuration similaire, FlauBERT intègre en plus un référentiel francophone d’évaluation permettant de comparer les performances de différents modèles, et fournit des outils pour l’analyse sémantique fine et la modélisation de langue à un niveau avancé.

À l’heure ou l’intelligence artificielle générative se déploie dans toutes les organisations, y compris dans le secteur public, les projets visant à adapter ces outils à la langue française sont synonyme d’efficacité accrue. Ces initiatives préfigurent la tendance des modèles de langage restreints (Small Language Models ou SLM), qui permettent aux organisations d’intégrer des jeux de données spécifiques dans les modèles d’IA afin de configurer des outils toujours plus pertinents en fonction des objectifs poursuivis.

 

Partager sur Facebook
Partager sur Twitter
Partager sur Linkedin

Laisser un commentaire

Sur le même sujet

Bienvenue dans la BU du futur

Bienvenue dans la BU du futur

L'IA, le meilleur ambassadeur de l'université inversée ?

L’IA, le meilleur ambassadeur de l’université inversée ?

Les communs numériques au service de l'action publique

Les communs numériques au service de l’action publique

Quand les régions mettent l’IA au service des citoyens

E-administration : 4 transformations qui vont marquer 2024

E-administration : 4 transformations qui vont marquer 2024

À lire aussi

Vers la semaine en 4 jours dans la fonction publique ?

Vers la semaine en 4 jours dans la fonction publique ?

Et non pas « de » 4 jours.

Cyber Solidarity Act : quand l’Europe dresse son bouclier numérique

Au-delà du Buzzword : Data LakeHouse

Comment libérer l’utilisation secondaire des données de santé ?

Rodrigue Alexander (CHU de Martinique) : « L’IA, une réponse au défi de la démographie médicale »

CHU de Montpellier : l’IA au cœur d’un partenariat avec Dell

Newsletter

Suivez ITPublic

La boîte à outils

Découvrir l’ensemble des contenus