Entraîner les machines à apprendre plus comme les humains
Les images téléchargeables sur le site Web du bureau MIT News sont mises à la disposition des entités non commerciales, de la presse et du grand public sous une licence Creative Commons Attribution Non-Commercial No Derivatives. Vous ne pouvez pas modifier les images fournies, sauf pour les recadrer à la taille. Une ligne de crédit doit être utilisée lors de la reproduction d'images ; si aucune n'est fournie ci-dessous, attribuez les images à "MIT".
Image précédente Image suivante
Imaginez-vous assis sur un banc de parc, regardant quelqu'un passer. Bien que la scène puisse changer constamment au fur et à mesure que la personne marche, le cerveau humain peut transformer cette information visuelle dynamique en une représentation plus stable au fil du temps. Cette capacité, connue sous le nom de redressement perceptif, nous aide à prédire la trajectoire de la personne qui marche.
Contrairement aux humains, les modèles de vision par ordinateur ne présentent généralement pas de rectitude perceptive, ils apprennent donc à représenter les informations visuelles de manière hautement imprévisible. Mais si les modèles d'apprentissage automatique avaient cette capacité, cela pourrait leur permettre de mieux estimer comment les objets ou les personnes se déplaceront.
Des chercheurs du MIT ont découvert qu'une méthode d'entraînement spécifique peut aider les modèles de vision par ordinateur à apprendre des représentations plus perceptivement droites, comme le font les humains. La formation consiste à montrer à un modèle d'apprentissage automatique des millions d'exemples afin qu'il puisse apprendre une tâche.
Les chercheurs ont découvert que la formation de modèles de vision par ordinateur à l'aide d'une technique appelée formation contradictoire, qui les rend moins réactifs aux petites erreurs ajoutées aux images, améliore la rectitude perceptuelle des modèles.
L'équipe a également découvert que la rectitude perceptive est affectée par la tâche à laquelle un modèle est entraîné. Les modèles formés pour effectuer des tâches abstraites, comme la classification d'images, apprennent des représentations perceptuellement plus droites que ceux formés pour effectuer des tâches plus fines, comme l'attribution de chaque pixel d'une image à une catégorie.
Par exemple, les nœuds du modèle ont des activations internes qui représentent "chien", ce qui permet au modèle de détecter un chien lorsqu'il voit une image d'un chien. Les représentations perceptuellement droites conservent une représentation "chien" plus stable lorsqu'il y a de petits changements dans l'image. Cela les rend plus robustes.
En acquérant une meilleure compréhension de la rectitude perceptive dans la vision par ordinateur, les chercheurs espèrent découvrir des informations qui pourraient les aider à développer des modèles qui font des prédictions plus précises. Par exemple, cette propriété pourrait améliorer la sécurité des véhicules autonomes qui utilisent des modèles de vision par ordinateur pour prédire les trajectoires des piétons, des cyclistes et d'autres véhicules.
"L'un des messages à retenir ici est que s'inspirer des systèmes biologiques, tels que la vision humaine, peut à la fois vous donner un aperçu de la raison pour laquelle certaines choses fonctionnent comme elles le font et également inspirer des idées pour améliorer les réseaux de neurones", déclare Vasha DuTell. , postdoctorant au MIT et co-auteur d'un article explorant la rectitude perceptuelle dans la vision par ordinateur.
L'auteur principal Anne Harrington, étudiante diplômée au Département de génie électrique et d'informatique (EECS), se joint à DuTell pour l'article ; Ayush Tewari, post-doctorante ; Mark Hamilton, étudiant diplômé; Simon Stent, directeur de recherche chez Woven Planet ; Ruth Rosenholtz, chercheuse principale au Département des sciences du cerveau et cognitives et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL); et l'auteur principal William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d'informatique et membre du CSAIL. La recherche est présentée à la Conférence internationale sur les représentations de l'apprentissage.
Étudier le lissage
Après avoir lu un article de 2019 d'une équipe de chercheurs de l'Université de New York sur la rectitude perceptuelle chez l'homme, DuTell, Harrington et leurs collègues se sont demandé si cette propriété pourrait également être utile dans les modèles de vision par ordinateur.
Ils ont cherché à déterminer si différents types de modèles de vision par ordinateur redressaient les représentations visuelles qu'ils apprenaient. Ils ont alimenté chaque image modèle d'une vidéo et ont ensuite examiné la représentation à différentes étapes de son processus d'apprentissage.
Si la représentation du modèle change de manière prévisible dans les images de la vidéo, ce modèle se redresse. Au final, sa représentation en sortie devrait être plus stable que la représentation en entrée.
"Vous pouvez considérer la représentation comme une ligne, qui commence très sinueuse. Un modèle qui se redresse peut prendre cette ligne sinueuse de la vidéo et la redresser à travers ses étapes de traitement", explique DuTell.
La plupart des modèles qu'ils ont testés ne se redressaient pas. Parmi les rares qui l'ont fait, ceux qui se sont redressés le plus efficacement avaient été entraînés aux tâches de classification en utilisant la technique connue sous le nom d'entraînement contradictoire.
La formation contradictoire consiste à modifier subtilement les images en modifiant légèrement chaque pixel. Alors qu'un humain ne remarquerait pas la différence, ces changements mineurs peuvent tromper une machine qui classe mal l'image. L'entraînement contradictoire rend le modèle plus robuste, de sorte qu'il ne sera pas trompé par ces manipulations.
Parce que la formation contradictoire apprend au modèle à être moins réactif aux légers changements d'images, cela l'aide à apprendre une représentation plus prévisible dans le temps, explique Harrington.
"Les gens ont déjà eu cette idée que la formation contradictoire pourrait vous aider à faire en sorte que votre modèle ressemble davantage à un humain, et il était intéressant de voir que cela se répercute sur une autre propriété que les gens n'avaient pas testée auparavant", dit-elle.
Mais les chercheurs ont découvert que les modèles entraînés de manière contradictoire n'apprennent à se redresser que lorsqu'ils sont entraînés pour des tâches générales, comme la classification d'images entières en catégories. Les modèles chargés de la segmentation - étiquetant chaque pixel d'une image comme une certaine classe - ne se sont pas redressés, même lorsqu'ils ont été formés de manière contradictoire.
Classement cohérent
Les chercheurs ont testé ces modèles de classification d'images en leur montrant des vidéos. Ils ont constaté que les modèles qui apprenaient des représentations plus perceptivement droites avaient tendance à classer correctement les objets dans les vidéos de manière plus cohérente.
"Pour moi, il est étonnant que ces modèles formés de manière contradictoire, qui n'ont même jamais vu de vidéo et n'ont jamais été formés sur des données temporelles, montrent encore une certaine quantité de redressement", déclare DuTell.
Les chercheurs ne savent pas exactement ce qui, dans le processus de formation contradictoire, permet à un modèle de vision par ordinateur de se redresser, mais leurs résultats suggèrent que des schémas de formation plus forts entraînent davantage le redressement des modèles, explique-t-elle.
S'appuyant sur ces travaux, les chercheurs veulent utiliser ce qu'ils ont appris pour créer de nouveaux programmes de formation qui donneraient explicitement cette propriété à un modèle. Ils veulent également approfondir la formation contradictoire pour comprendre pourquoi ce processus aide un modèle à se redresser.
"D'un point de vue biologique, l'entraînement contradictoire n'a pas nécessairement de sens. Ce n'est pas la façon dont les humains comprennent le monde. Il y a encore beaucoup de questions sur la raison pour laquelle ce processus d'entraînement semble aider les modèles à agir davantage comme des humains", déclare Harrington.
"Comprendre les représentations apprises par les réseaux de neurones profonds est essentiel pour améliorer des propriétés telles que la robustesse et la généralisation", déclare Bill Lotter, professeur adjoint au Dana-Farber Cancer Institute et à la Harvard Medical School, qui n'a pas participé à cette recherche. "Harrington et al. effectuent une évaluation approfondie de la façon dont les représentations des modèles de vision par ordinateur changent au fil du temps lors du traitement de vidéos naturelles, montrant que la courbure de ces trajectoires varie considérablement en fonction de l'architecture du modèle, des propriétés d'entraînement et de la tâche. Ces résultats peuvent informer le développement de modèles améliorés et offrent également des informations sur le traitement visuel biologique."
"L'article confirme que le redressement des vidéos naturelles est une propriété assez unique affichée par le système visuel humain. Seuls les réseaux formés de manière contradictoire l'affichent, ce qui fournit un lien intéressant avec une autre signature de la perception humaine : sa robustesse aux diverses transformations d'image, qu'elles soient naturelles ou artificielles. ", explique Olivier Hénaff, chercheur à DeepMind, qui n'a pas participé à cette recherche. "Le fait que même les modèles de segmentation de scène entraînés de manière contradictoire ne redressent pas leurs entrées soulève des questions importantes pour les travaux futurs : les humains analysent-ils les scènes naturelles de la même manière que les modèles de vision par ordinateur ? Comment représenter et prédire les trajectoires des objets en mouvement tout en restant sensible à leur détail spatial ? En reliant l'hypothèse de redressement à d'autres aspects du comportement visuel, l'article jette les bases de théories plus unifiées de la perception. »
La recherche est financée, en partie, par le Toyota Research Institute, la bourse MIT CSAIL METEOR, la National Science Foundation, le US Air Force Research Laboratory et l'US Air Force Artificial Intelligence Accelerator.
Article précédent Article suivant
Étudier le redressage Classification cohérente