Bilan data challenge décembre 2022

12 décembre 2022

Les 3 sujets ont été apportés par : Boavizta, une association de référence sur l’impact environnemental de l’IA; Green AI, un laboratoire de l’université de Pau qui développe des algorithmes basse consommation ayant un impact sur le réchauffement climatique; et les PtitsBots, une entreprise qui développe et commercialise des chatbots citoyens pour les collectivités, avec toutes les considérations éthiques que cela implique.
Merci aux nombreux étudiants participants, aux mentors, aux jurys et aux entreprises ayant transmis et suivi les projets.

Le déroulement

Le data challenge a débuté le vendredi 2 décembre 2022, à 18h00 : les entreprises ont tout d’abord présenté en distanciel le problème à résoudre, puis les étudiants présents en ligne et inscrits ont constitué des équipes et choisi l’un des sujets. Chacun de ces sujets nécessitait la mise en œuvre de technologies dites d’intelligence artificielle.
Jusqu’au dimanche 4 décembre 14h00, chaque équipe a recherché une solution pour son projet et préparé un rendu sous forme de maquette et diapositives de présentation. Durant cette période, des points réguliers ont été effectués avec un mentor technique de chaque projet. Le dimanche matin, Gael Guennebaud chercheur à l’Inria et membre du groupe de référence EcoInfo a effectué une superbe présentation sur la gestion de l’impact environnemental d’une solution IA: indicateurs simplistes, complexité des effets de rebonds et conséquences multiples du numérique.
Le dimanche 4 décembre après-midi, chaque équipe a présenté en distanciel son projet devant des jurys d’experts qui ont sélectionné un vainqueur pour chaque sujet d’entreprise, soit trois équipes sélectionnées. Puis ces trois équipes ont été départagées par un nouveau jury lors d’une nouvelle présentation diffusée en direct.
Sur la base des prototypes réalisés, de leurs performances, des présentations et des réponses aux questions, des prix ont été décernés à ces trois équipes : 2 500€ à la meilleure équipe, 1 500€ aux deux autres équipes qui avaient rempoté les phases de sélection par projet d’entreprise.

Les sujets proposés

Boavizta : Identifier un modèle NLP présentant le moins d’impact environnemental

Problématique et objectifs : L’objectif est de construire un modèle de NLP avec le coût environnemental le plus bas possible. Le projet concerne la tâche de classification de sentiment, c’est à dire de classer des phrases selon que les sentiments décrits sont positifs ou négatifs. Cette tâche a l’avantage d’être relativement connue, et porte sur de nombreuses applications de la vie réelle. Il est demandé d’explorer l’état de l’art et trouver des modèles qui offrent des compromis précision/impact plus intéressants que les modèles classiquement utilisés. Tout modèle de NLP peut être testé (TF-IDF, embedding based classifier, LSTM, BERT), ainsi que les modèles préentraînés (exclusion des modèles déjà entraînés pour la classification de sentiments).

Descriptif du jeu de données fourni : Les données se composent d’un sous-ensemble de 30000 critiques de films extraites du site IMDb. Un second corpus wikitext est fourni pour apprendre son propre modèle de langage ou plongement lexical. L’usage de ce second corpus est optionnel.

Green AI UPPA : Optimisation d’une application de sensibilisation à l’environnement

Problématique et objectifs : l’équipe GreenAI UPPA développe depuis plusieurs mois une application de sensibilisation à l’environnement sur https://la-derniere-bibliotheque.org/. L’objectif du challenge est d’améliorer le modèle de NLP utilisé par l’application pour ajouter de la pertinence au moteur de recherche et proposer automatiquement des tags lors de l’ajout de contenus.
Concernant le moteur de recherche, Il s’agit d’une part d’améliorer la pertinence des résultats, étant donné la requête saisie par l’utilisateur, mais également d’optimiser et de renseigner l’énergie consommée lors de la requête.
Concernant la proposition de tags lors d’une nouvelle saisie, il s’agit d’entraîner des classifieurs à partir des différents modèles de NLP sur les données de l’applications.

Descriptif du jeu de données fourni : mise à disposition d’un dépôt github contenant le code open-source du projet en ligne la-derniere-bibliotheque.org, des fichiers relatifs à l’évaluation du moteur de recherche (un fichier contenant 20 requêtes et contenu associé à chaque requête, un script python pour évaluer le top5, top3, et top1 de l’algorithme de recherche), les tweets utilisés pour entraîner le modèle fasttext actuellement en production.

Les petits bots : Anonymisation des données personnelles

Problématique et objectifs : l’objectif est donc d’anonymiser les messages des utilisateurs; la version idéale devrait fonctionner en 2 étapes : identifer automatiquement les mots ou groupes de mots qui sont des informations à caractère personnel ou sensible dans les messages envoyés aux chatbots, puis anonymiser ces messages en cachant ces mots ou groupes de mots. En fonction des contraintes techniques rencontrées, il est possible d’imaginer une première version où les 2 étapes seraient : identifier automatiquement les messages comprenant des informations à caractère personnel ou sensible, puis les supprimer. Cette version n’est pas optimale, puisque l’objectif est de garder tous les messages non compris afin d’alimenter le chatbot lors du processus ”Entraînement”.

Descriptif du jeu de données fourni : 2 sets de données fournies : les messages des habitants de la ville de Clichy et les messages des collaborateurs travaillant à la Gendarmerie Nationale. Tous ces messages ont été labellisés (identification des messages qui possèdent des informations personnelles, et au sein
de ces messages, tag des mots qui posent problème). Un fichier .xlsx contenant les éléments suivants est fourni : un ID, une query (la question posée par l’utilisateur), un drapeau indiquant si la question détient des éléments sensibles ou non; un autre .xlsx contenant uniquement les phrases contenant des éléments sensibles (en gras) est également disponible.

Les résultats

De nombreuses équipes ont travaillé intensément durant 2 jours et 2 nuits et ont apporté des solutions de très grande qualité aux 3 projets proposés.
Toutes nos félicitations aux vainqueurs, une équipe d’étudiants de l’école CY Tech.

REJOIGNEZ-NOUS

Contactez-nous pour toutes vos interrogations

#IAPAU