RetinaNet est un modèle d'apprentissage profond utilisé pour la détection d'objets en vision par ordinateur. Il a été introduit par Facebook AI Research en 2017 et est depuis devenu un choix populaire pour la détection d'objets dans les images et les vidéos.
L'une des principales caractéristiques de RetinaNet est qu'il s'agit d'un détecteur d'objets en une seule étape, ce qui signifie qu'il n'a besoin de faire qu'un seul passage dans une image pour détecter les objets. Cela contraste avec les détecteurs en deux étapes, qui nécessitent plusieurs passages dans l'image.
L'architecture de RetinaNet comprend un réseau pyramidal de caractéristiques (FPN) qui extrait les caractéristiques des différentes échelles de l'image d'entrée. Ces caractéristiques sont ensuite transmises à un sous-réseau de classification et de régression qui prédit la présence et l'emplacement des objets dans l'image.
RetinaNet utilise une nouvelle fonction de perte appelée perte focale, qui résout le problème du déséquilibre des classes dans la détection des objets. La perte focale donne plus de poids aux exemples difficiles, c'est-à-dire aux objets difficiles à détecter, tout en minimisant l'impact des exemples faciles, c'est-à-dire des objets déjà bien détectés.
RetinaNet a atteint des performances sur plusieurs ensembles de données de référence, notamment COCO et PASCAL VOC. Il est également largement utilisé dans des applications telles que les voitures autonomes, la surveillance de la sécurité et l'imagerie médicale.
En résumé, RetinaNet est un détecteur d'objets en une seule étape qui utilise un réseau pyramidal de caractéristiques et une perte focale pour atteindre des performances en matière de détection d'objets. Son architecture et ses performances en font un choix populaire pour une large gamme d'applications de vision par ordinateur.