Bár kétdimenziós képek alapján sokszor egészen jól meg lehet határozni, hogy milyen tárgyak vesznek körül egy robotot, azért a módszernek vannak korlátai. Mesterséges kockavilágban már a hatvanas években is működött a dolog, de valós környezetben a takarások, fák, változó fényhatások gondot okoznak.
Gupta és társai a Carnegie Mellon egyetemről azzal kísérleteznek, hogy a képek alapján robotjuk először is egynemű felületeket legyen képes meghatározni, majd a geometria szabályai alapján ezeket az elemeket kapcsolja össze egy olyan objektummá, ami a felületek egymáshoz való viszonya alapján a legvalószínűbb. Vagyis, ha például egy fa takarása miatt egy épület falának két része nem egy felületként érzékelhető, akkor a takarás ellenére is sikerüljön azt egy objektumként kezelni. Ehhez hasonlóan egy ház egymás melletti falai egy blokkhoz kellene, hogy tartozzanak.
Ezen kívül a mechanika szabályait és a képek alapján valószínűsíthető sűrűséget felhasználva az is becsülhető, hogy egy adott tárgy a másikra van helyezve vagy csupán valamilyen takarásról van-e szó. Hiszen nem túl valószínű, hogy a kismeretű bokor tetejénél kezdődő épület a bokron magán van rajta, hanem sokkal inkább mögötte helyezkedik el. Ugyanígy a felületek által meghatározott épületek is többnyire olyanok, hogy nem dőlnek fel, a tetőt tartja valami, tehát a falaik bizonyos elrendezésben a legvalószínűbbek.
Ezzel az úttörő módszerrel a szerzők az eddigieknél megbízhatóbban képesek környezeti térképet létrehozni nyílt terepen is, ami fontos lehet a robotnavigáció fejlődése szempontjából.