Pourquoi les réseaux neuronaux à rotation invariante ne sont-ils pas utilisés dans les gagnants des concours populaires?
Comme on le sait, moderne le plus populaire de CNN (réseau de neurones à convolution): VGG/l'organisme (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - ne sont pas faites pivoter invariant: la CNN moderne (réseau neuronal convolutionnel) comme DetectNet rotate est-elle invariante?
on sait aussi qu'il existe plusieurs réseaux neuronaux avec détection d'objets à invariance de rotation:
Neoperceptron Invariant De Rotation 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron
apprentissage rotation invariant convolutional filters for texture classification 2016 ( PDF): https://arxiv.org/abs/1604.06720
RIFD-CNN: Invariant Rotation-Invariant and Fisher Discriminative Convolutional Neural Networks for Object Detection 2016 ( PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html
Invariance encodée dans les réseaux neuronaux convolutionnels 2014 ( PDF)
Rotation-invariant convolutifs réseaux de neurones pour la galaxie de la morphologie de prédiction ( PDF): https://arxiv.org/abs/1503.07077
Apprentissage La Rotation de l'Invariant de Convolution des Réseaux de Neurones pour la Détection d'Objet en VHR Optique d'Images de Télédétection 2016: http://ieeexplore.ieee.org/document/7560644/
nous savons, que dans des concours de détection d'image tels que: IMAGE-NET, MSCOCO, PASCAL VOC - réseaux utilisés ensembles (simultanément certains réseaux neuronaux). Ou réseaux d'ensembles en réseau simple tel que ResNet (les réseaux résiduels se comportent comme des Ensembles de réseaux relativement peu profonds Réseaux)
mais les ensembles réseau invariants de rotation sont utilisés dans les gagnants comme MSRA, et si non, alors pourquoi? Pourquoi dans l'ensemble le réseau additionnel invariant de rotation n'ajoute pas de précision pour détecter certains objets tels que des objets d'avion - quelles images sont faites à un angle de rotation différent?
C'est peut-être:
pourquoi les réseaux neuronaux à rotation invariante ne sont-ils pas utilisés dans les gagnants des concours populaires de détection d'objets?
3 réponses
les progrès récents dans la reconnaissance d'image qui a été faite principalement en changeant l'approche d'un classique sélection des caractéristiques-algorithme d'apprentissage superficielpas de feture sélection de profondeur algorithme d'apprentissage n'a pas seulement été causé par les propriétés mathématiques des réseaux neuronaux convolutionnels. Oui-bien sûr, leur capacité à saisir la même information à l'aide d'un plus petit nombre de paramètres est en partie attribuable à leur propriété d'invariance de décalage mais le récent recherche a montré que ce n'est pas une clé pour comprendre leur succès.
à mon avis, la principale raison de ce succès était le développement PLUS VITE apprendre des algorithmes que plus mathématiquement exact et c'est pourquoi moins d'attention est mise sur le développement d'un autre invariant de propriété réseaux de neurones.
bien sûr rotation de l'invariance n'est pas ignoré à tous. Cela est partiellement fait par les données augmentation où vous mettez l'image légèrement changée (par exemple tournée ou rééchelonnée) à votre ensemble de données - avec la même étiquette. Comme nous pouvons le lire dans ce livre fantastique ces deux approches (plus de structure et moins structure + augmentation des données) sont plus ou moins équivalentes.
je me demande aussi pourquoi la communauté ou le chercheur n'a pas accordé beaucoup d'attention à CNN invariant de ration comme @Alex.
une cause possible, à mon avis, est que de nombreux scénarios n'ont pas besoin de cette propriété, en particulier pour ces compétitions populaires. Comme Rob mentionné, quelques photos naturelles sont déjà prises de manière horizontale (ou verticale) unifiée. Par exemple, dans la détection de visage, de nombreux travaux aligneront l'image pour s'assurer que les gens sont debout sur la terre avant de se nourrir tous les modèles CNN. Pour être honnête, c'est le plus efficace et bon marché pour cette tâche particulière.
cependant, il existe certains scénarios dans la vie réelle, nécessitant la propriété invariante de rotation. J'en viens donc à une autre hypothèse: ce problème n'est pas difficile du point de vue de ces experts (ou chercheurs). Au moins nous pouvons utiliser l'augmentation de données pour obtenir quelques invariants de rotation.
Enfin, merci beaucoup pour votre synthèse sur les papiers. J'ai ajouté un de plus de papier Groupe Equivariant Convolutional Networks_icml2016_GCNN et son mise en œuvre sur github par d'autres personnes.
la détection D'objets est principalement motivée par les succès des algorithmes de détection dans des référentiels de détection d'objets de renommée mondiale comme PASCAL-VOC et MS-COCO, qui sont des ensembles de données centrés sur les objets où la plupart des objets sont verticaux (plantes en pot, humains, chevaux, etc.) et donc l'augmentation des données avec des flips gauche-droite est souvent suffisante (pour tout ce que nous savons, l'augmentation des données avec des images tournées comme des flips à l'envers pourrait même nuire à la performance de détection).
Chaque année, l'ensemble de la communauté adopte la structure algorithmique de base de la solution gagnante et de le développer (j'exagère un peu pour prouver un point, mais pas tellement).
il est intéressant de noter que d'autres sujets moins connus comme les détections textuelles orientées et les détections de véhicules orientées en imagerie aérienne ont tous deux besoin de caractéristiques invariantes de rotation et de pipelines de détection équivariante de rotation (comme dans les deux articles de Cheng que vous avez mentionnés).
si vous voulez trouver de la littérature et du code dans ce domaine, vous devez plongée dans ces deux domaines. Je peux déjà vous donner quelques conseils, le DOTA défi d'imagerie aérienne ou de l' icdar challenges pour les détections de texte orientées.
comme @Marcin Mozejko l'a dit, CNN sont par nature invariants de traduction et non invariants de rotation. C'est un problème ouvert comment incorporer l'invariance de rotation parfaite les quelques articles qui traitent de cela doivent devenir des normes même si semblent prometteuses. Mon préféré pour la détection est la modification de R-CNN plus rapide récemment proposé par Ma.
j'espère que cette orientation de la recherche sera de plus en plus étudiée une fois que les gens en auront assez de MS-COCO et de VOC.
ce que vous pourriez essayer est de prendre un détecteur de pointe formé sur MS-COCO comme R-CNN plus rapide avec NASNet de L'API de détection TF et voir comment il fonctionne wrt tournant l'image de test, à mon avis elle devait être loin de rotation de l'invariant.