Skip to main content

Une approche inédite pour améliorer la reconnaissance des images par l’IA

22 mai 2024
|

Un diagramme montrant une méthode en deux étapes pour la segmentation d'images. À gauche, on voit deux images : une image de support et une image de requête, accompagnées de leurs masques de premier plan. La section principale illustre le processus : dans la première étape (fond rouge), les caractéristiques de l'image de support sont associées à celles de l'image de requête pour faire une prédiction initiale. La deuxième étape (fond vert) affine cette prédiction pour améliorer la précision. Les cartes de chaleur montrent les zones de haute corrélation entre les images à différents stades. Le décodeur dense aide à affiner la prédiction finale. La « segmentation sémantique en quelques coups » permet à l’IA de comprendre le contenu d’une image dans les moindres détails, en identifiant et en étiquetant chaque pixel.
A man with short, dark hair and a beard, smiling Charalambos Poullis

Imaginez que les voitures autonomes apprennent rapidement à reconnaître les nouveaux panneaux de signalisation ou que les systèmes d’imagerie médicale s’adaptent pour identifier de nouvelles anomalies avec seulement quelques exemples. Des chercheurs de l’Université Concordia travaillent à rendre ces innovations possibles. Dans une étude parue dans la revue Scientific Reports de Nature, le doctorant Amin Karimi et le Pr Charalambos Poullis de l’École de génie et d’informatique Gina-Cody présentent une méthode inédite pour améliorer la reconnaissance des images par l’intelligence artificielle (IA), même lorsque très peu d’exemples sont disponibles.

Connue sous le nom de « segmentation sémantique en quelques coups », cette méthode permet à l’IA de comprendre le contenu d’une image dans les moindres détails, en identifiant et en étiquetant chaque pixel. Le terme « quelques coups » signifie que l’IA peut apprendre à reconnaître de nouveaux objets avec seulement quelques exemples étiquetés, un peu comme peuvent le faire les humains.

M. Karimi et le Pr Poullis ont mis au point une approche unique qui combine des informations provenant de deux types de modèles d’IA : l’un qui classifie des images entières et l’autre qui décompose les images en leurs éléments constitutifs. En intégrant les forces de ces modèles, les chercheurs ont créé un système plus puissant pour comprendre les images.

A man with dark hair and a trimmed beard, wearing a white shirt, looking into the camera with a slight smile in an indoor setting with a modern design. Amin Karimi

Leur technique recourt à un type d’apprentissage particulier appelé « méta-apprentissage transductif », qui permet à l’IA d’améliorer ses résultats en apprenant en deux étapes. Tout d’abord, l’IA apprend à identifier des modèles dans les données étiquetées qui lui sont fournies, en se concentrant sur les similitudes entre les objets connus. Ensuite, elle utilise ces connaissances pour faire des suppositions éclairées sur de nouvelles images non étiquetées, améliorant ainsi sa précision en réduisant le nombre d’erreurs.

Testée sur des ensembles de données d’images standards, la méthode d’Amin Karimi et du Pr Charalambos Poullis a fourni d’excellents résultats, même avec un nombre relativement faible de paramètres réglables, soit seulement 2,98 millions de paramètres. À titre de comparaison, de nombreux modèles avancés de reconnaissance d’images comportent des dizaines, voire des centaines de millions de paramètres.

Cette recherche ouvre de nouvelles possibilités pour les applications concrètes où la collecte de grandes quantités de données est difficile et coûteuse. Elle représente une étape importante vers la création de systèmes d’IA plus adaptables, efficaces et précis, aux capacités d’apprentissage semblables à celles de l’humain.

Le Pr Charalambos Poullis dirige le Laboratoire des technologies immersives et créatives du Département d’informatique et de génie logiciel de l’Université Concordia.



Retour en haut de page

© Université Concordia