Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Title:Weakly-supervised segmentation of referring expressions

May 12, 2022

Robin Strudel, Ivan Laptev, Cordelia Schmid

Figure 1 for Weakly-supervised segmentation of referring expressions

Figure 2 for Weakly-supervised segmentation of referring expressions

Figure 3 for Weakly-supervised segmentation of referring expressions

Figure 4 for Weakly-supervised segmentation of referring expressions

Share this with someone who'll enjoy it:

Abstract:Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. A fully-supervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. The resulting visual grounding model segments image regions corresponding to given natural language expressions. Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.

View paper on

Share this with someone who'll enjoy it:

Title:Weakly-supervised segmentation of referring expressions

Paper and Code