Qu'est-ce que la" segmentation sémantique "comparée à la" segmentation "et à l' "étiquetage de scène"?

la sémantique de la segmentation juste un Pléonasme ou est-il une différence entre sémantique "segmentation" et de la "segmentation"? Est-il une différence à la "scène de l'étiquetage" ou "scène d'analyse"?

Quelle est la différence entre la segmentation au niveau du pixel et la segmentation au niveau du pixel?

(question secondaire: quand vous avez ce genre d'annotation en pixel, obtenez-vous la détection d'objet gratuitement ou y a-t-il encore quelque chose à faire?)

s'il vous Plaît donner une source pour vos définitions.

Sources qui utilisent la "segmentation sémantique "

  • Jonathan Long, Evan Shelhamer, Trevor Darrell: Fully Convolutional Networks for Semantic Segmentation . CVPR, 2015 et PAMI, 2016
  • Hong, Seunghoon, Hyeonwoo Noh, et Bohyung Han: "Découplé Réseau de Neurones Profonds pour Semi-supervisé Sémantique de la Segmentation." arXiv preprint arXiv: 1506.04924 , 2015.
  • V. Lempitsky, A. Vedaldi, et A. Zisserman: Un pylône modèle sémantique pour la segmentation. Dans Advances in Neural Information Processing Systems, 2011.

les Sources qui utilisent la "scène de l'étiquetage"

  • Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun: Learning Hierarchical Features pour L'étiquetage de scène . Dans L'analyse des formes et L'Intelligence des machines, 2013.

Source qui utilise "pixel-niveau"

  • Pinheiro, Pedro O., et Ronan Collobert: "De l'Image au niveau du Pixel au niveau de l'Étiquetage avec Convolutifs Réseaux."Actes de la Conférence de l'IEEE sur la Vision par Ordinateur et Reconnaissance de formes, 2015. (voir http://arxiv.org/abs/1411.6228 )

Source qui utilise "pixelwise"

  • Li, Hongsheng, Rui Zhao, et Xiaogang Wang: "Très efficace avant et en arrière de la propagation de réseaux de neurones à convolution pour pixelwise de classification." arXiv preprint arXiv: 1412.4526 , 2014.

Google Ngrams

Sémantique "segmentation" semble être plus utilisé récemment que "la scène de l'étiquetage"

enter image description here

78
demandé sur Shai 2015-11-27 01:25:37

3 réponses

"segmentation" est une partition d'une image en plusieurs parties "cohérentes", mais sans aucune tentative de comprendre ce que ces parties représentent. Une des œuvres les plus célèbres (mais certainement pas la première) est Shi et Malik "coupes normalisées et la Segmentation de L'Image" PAMI 2000 . Ces travaux tentent de définir la "cohérence" en termes de signaux de bas niveau tels que la couleur, la texture et la douceur de la frontière. Vous pouvez suivre retour ces travaux à la Gestalt théorie .

d'autre part " segmentation sémantique " tente de diviser l'image en parties sémantiquement significatives, et de classer chaque partie dans l'une des classes prédéfinies. Vous pouvez également atteindre le même objectif en classant chaque pixel (plutôt que l'image entière/segment). Dans ce cas, vous faites une classification pixel-Sage, ce qui conduit à la même résultat, mais dans un chemin légèrement différent...

donc, je suppose que l'on peut dire que la" segmentation sémantique", l '" étiquetage de scène "et la" classification pixelwise " cherchent essentiellement à atteindre le même objectif: comprendre sémantiquement le rôle de chaque pixel dans l'image. Vous pouvez prendre plusieurs chemins pour atteindre cet objectif, et ces chemins mènent à de légères nuances dans la terminologie.

68
répondu Shai 2016-05-18 16:58:47

j'ai lu beaucoup de documents sur la détection D'objet, la reconnaissance D'objet, la Segmentation D'objet, la Segmentation D'Image et la Segmentation D'Image sémantique et voici mes conclusions qui pourraient ne pas être vrai:

reconnaissance D'objets: dans une image donnée, vous devez détecter tous les objets (une classe restreinte d'objets dépend de votre ensemble de données), les localiser avec une boîte de délimitation et étiqueter cette boîte de délimitation avec une étiquette. Dans l'image ci-dessous, vous verrez une simple sortie d'un état de l'art la reconnaissance de l'objet.

object recognition

détection D'objet: c'est comme la reconnaissance D'objet, mais dans cette tâche vous avez seulement deux classes de classification d'objet qui signifie les boîtes de délimitation d'objet et les boîtes de délimitation non-objet. Par exemple la détection de voiture: vous devez détecter toutes les voitures dans une image donnée avec leurs boîtes de délimitation.

Object Detection

Segmentation D'objet: comme objet reconnaissance vous reconnaîtrez tous les objets d'une image mais votre sortie devrait afficher cet objet classant les pixels de l'image.

object segmentation

Segmentation D'Image: dans la segmentation d'image, vous segmenterez des régions de l'image. votre sortie n'étiquettera pas les segments et la région d'une image qui concordent les uns avec les autres devrait être dans le même segment. L'extraction de super pixels d'une image est un exemple de cette tâche ou de premier plan-arrière-plan segmentation.

image segmentation

Segmentation sémantique: dans la segmentation sémantique, vous devez étiqueter chaque pixel avec une classe d'objets (Voiture, personne, chien, ...) et non-objets (eau, ciel, route, ...). En D'autres termes, dans la Segmentation sémantique, vous marquerez chaque région de l'image.

semantic segmenation

je pense que le niveau de pixel et l'étiquetage par pixel est fondamentalement le même pourrait être segmentation de l'image ou segmentation sémantique. J'ai également répondu à votre question dans ce lien comme la même chose.

51
répondu e_soroush 2017-04-13 12:48:30

les réponses précédentes sont vraiment excellentes, je voudrais souligner quelques ajouts:

Segmentation D'Objet

l'une des raisons pour lesquelles cette question n'a pas retenu l'attention de la communauté des chercheurs est qu'elle est problématiquement vague. Segmentation d'objet signifie simplement trouver un nombre unique ou petit d'objets dans une image et tracer une frontière autour d'eux, et pour la plupart des fins, vous pouvez encore supposer qu'il signifie cette. Cependant, il a également commencé à être utilisé pour signifier la segmentation des blobs que pourrait être des objets, la segmentation des objets à partir de l'arrière-plan (plus communément appelé soustraction de l'arrière-plan ou la segmentation de l'arrière-plan ou la détection de premier plan), et même dans certains cas utilisés de façon interchangeable avec la reconnaissance d'objet en utilisant des boîtes de limites (cela s'est rapidement arrêté avec l'avènement des approches de réseau neuronal profond à la reconnaissance d'objet, mais avant la reconnaissance d'un objet peut aussi signifier simplement étiqueter une image entière avec l'objet qu'elle contient).

Qu'est-ce qui fait "segmentation" "sémantique"?

Simpy, chaque segment, ou dans le cas de méthodes profondes chaque pixel, est donné une étiquette de classe basée sur une catégorie. La Segmentation en général est juste la division de l'image par une certaine règle. Meanshift la segmentation, par exemple, à partir d'un très haut niveau de diviser les données selon les changements dans l'énergie de l'image. Graph cut de la même manière, la segmentation basée sur les propriétés de chaque image séparée du reste n'est pas apprise, mais dérivée directement des propriétés de chaque image. Les méthodes plus récentes (basées sur les réseaux neuronaux) utilisent des pixels qui sont marqués pour apprendre à identifier les caractéristiques locales qui sont associées à des classes spécifiques, puis classifier chaque pixel en fonction de quelle classe A la plus grande confiance pour ce pixel. De cette façon, "pixel-étiquetage" est en fait, un nom plus honnête pour la tâche, et la composante" segmentation " est émergente.

Exemple De Segmentation

sans doute le sens le plus difficile, le plus pertinent et le plus original de la Segmentation D'un objet," segmentation d'instance " signifie la segmentation des objets individuels à l'intérieur d'une scène, qu'ils soient du même type ou non. Toutefois, l'une des raisons pour lesquelles cela est si difficile est que, du point de vue de la vision (et de la quelques façons philosophique) ce qui fait un "objet" instance n'est pas tout à fait clair. Les parties du corps sont-elles des objets? Ces "objets partiels" devraient-ils être segmentés par un algorithme de segmentation d'instance? Ne devraient-ils être segmentés que s'ils sont considérés séparément de l'ensemble? Qu'en est composé des objets de deux choses clairement adhère, mais séparables être un objet ou deux (c'est une roche collée sur le haut du bâton, une hache, un marteau, ou tout simplement un bâton et un rocher à moins bien faite?). Aussi, il n'est pas clair comment pour distinguer les cas. Est-ce qu'une instance will est séparée des autres murs auxquels elle est attachée? Quel ordre doit-cas être comptés? Comme ils apparaissent? La proximité du point de vue? En dépit de ces difficultés, la segmentation des objets est encore une grande affaire parce que comme les humains nous interagissons avec des objets tout le temps indépendamment de leur "étiquette de classe" (en utilisant des objets aléatoires autour de vous comme poids de papier, Assis sur des choses qui ne sont pas des chaises), et donc certains ensembles de données ne tentent d'obtenir ce problème, mais la principale raison il n'y a pas beaucoup d'attention accordée au problème encore c'est parce qu'il n'est pas assez bien définies. enter image description here

l'Analyse de la Scène/Scène étiquetage

Scène d'Analyse est la stricte approche de segmentation de la scène de l'étiquetage, qui a aussi une certaine imprécision ses propres problèmes. Historiquement, l'étiquetage de scène a voulu diviser toute la "scène" (image) en segments et donner tous une classe de l'étiquette. Cependant, il a également été utilisé pour signifier donner des étiquettes de classe à des zones de l'image sans les segmenter explicitement. En ce qui concerne la segmentation, "segmentation sémantique" ne signifie pas signifie diviser la scène entière. Pour la segmentation sémantique, l'algorithme est destiné à segmenter uniquement les objets qu'il connaît, et sera pénalisé par sa fonction de perte pour étiqueter les pixels qui n'ont pas d'étiquette. Par exemple, L'ensemble de données MS-COCO est un ensemble de données pour sémantique segmentation où seuls quelques objets sont segmentés. MS-COCO sample images

28
répondu physincubus 2017-03-28 22:59:04