Monocular 3D human-environment understanding: From interaction to reconstruction

Li, Zhi

Bitte benutzen Sie diese Referenz, um auf diese Ressource zu verweisen: doi:10.22028/D291-47845

Titel:	Monocular 3D human-environment understanding: From interaction to reconstruction
VerfasserIn:	Li, Zhi
Sprache:	Englisch
Erscheinungsjahr:	2026
DDC-Sachgruppe:	500 Naturwissenschaften 600 Technik
Dokumenttyp:	Dissertation
Abstract:	Understanding and reconstructing 3D human and environment from monocular observations is a fundamental yet profoundly challenging problem in computer vision. Without stereo or multi-view information, monocular systems must infer depth, motion, and spatial structure from inherently ambiguous visual cues. However, the ubiquity of monocular cameras in autonomous systems, robotics, and consumer devices makes this setting not only practical but also essential. This thesis explores a unified framework for monocular 3D human-environment understanding that progresses through a series of self-supervised or weakly-supervised models, moving from capturing human motion to adapting to changing environments and ultimately reconstructing them. The first part investigates how environmental cues can be exploited to improve human motion understanding from monocular inputs. Specifically, physical constraints—such as ground contact, support, and body-environment proximity—are leveraged to guide pose estimation. A factorised correction-based framework is proposed for multi-person monocular 3D pose estimation, enabling stable optimisation over imperfect initial predictions. Based on this foundation, a contact-guided motion capture method is introduced, sampling from pose manifolds while enforcing dense contact consistency with the scene. These methods demonstrate how even limited monocular information can be enriched through structured interaction with the surrounding environment. Beyond human-centric modelling, the next stage examines how human motion itself can be used to recover environmental changes. In dynamic or deformable settings, static scene assumptions no longer hold. To address this, a joint reconstruction framework is developed to simultaneously estimate 3D human motion and environment deformations from monocular video. This approach captures mutual influence: humans adapt to the scene, and their movements reveal the scene’s pliability and evolution. Grounded in optimisation, this formulation models environment deformation through human motion, providing a pathway toward high-fidelity dynamic scene reconstruction. As scenes evolve—both spatially and across domains—monocular systems must remain robust to distribution shifts. To address this, a source-free test-time domain adaptation framework is proposed for monocular depth estimation. A self-supervised optimisation strategy is employed to adapt depth predictions to unseen target domains during inference, without access to source domain data or annotations. By leveraging geometric consistency and photometric cues available at test time, this method effectively mitigates domain shifts commonly encountered in outdoor driving scenarios. Unlike prior approaches that require offline retraining or access to labelled source data, this solution is plug-and-play, efficient, and enhances generalisation in a fully unsupervised setting. The final stage turns toward full scene reconstruction from a single view. Methods are developed for semantic 3D occupancy prediction from monocular images, enabling feed-forward single-frame inference without reliance on ground-truth occupancy or LiDAR supervision. The approach begins with a NeRF-based volumetric rendering formulation to align 3D semantic predictions with 2D annotations through differentiable rendering losses. Within this framework, a multi-task interaction strategy is specifically designed to improve the synergy between semantic supervision and geometric reconstruction. By integrating semantic and geometric reasoning in a unified formulation, this method enables rich 3D scene understanding with minimal supervision. Despite being trained only with 2D supervision, the system can recover meaningful volumetric structure from single images, offering a practical step toward self-supervised monocular 3D reconstruction. Across these stages, the contributions in this thesis form a coherent progression toward robust, self-supervised 3D perception from monocular visual input. From capturing interaction to reconstructing structure, the presented framework demonstrates how machines can perceive and interpret the 3D world through the narrow lens of a single camera—without requiring expensive sensors or annotations. This opens new possibilities in dynamic scene understanding, human-centric computing, and embodied AI. Das Verstehen und Rekonstruieren dreidimensionaler Mensch-Umwelt-Beziehungen aus monokularen Beobachtungen stellt eine grundlegende, jedoch äußerst anspruchsvolle Herausforderung in der Computer Vision dar. Ohne Stereo- oder Multiview-Informationen müssen monokulare Systeme Tiefe, Bewegung und räumliche Struktur aus von Natur aus mehrdeutigen visuellen Hinweisen ableiten. Die allgegenwärtige Verbreitung monokularer Kameras in autonomen Systemen, der Robotik und in Konsumgeräten macht dieses Szenario jedoch nicht nur praktikabel, sondern auch essenziell. Diese Dissertation untersucht ein einheitliches Rahmenwerk zur monokularen 3D-Erfassung von Mensch-Umwelt-Beziehungen, das sich schrittweise durch selbstüberwachte oder schwach überwachende Modelle entwickelt – von der Erfassung menschlicher Bewegung bis hin zur Anpassung an sich verändernde Umgebungen und deren Rekonstruktion. Im ersten Teil wird untersucht, wie Umweltinformationen genutzt werden können, um das Verständnis menschlicher Bewegungen aus monokularen Eingaben zu verbessern. Insbesondere werden physikalische Einschränkungen – wie Bodenkontakt, Stützflächen und die Nähe zwischen Körper und Umgebung – zur Steuerung der Posenabschätzung herangezogen. Ein auf faktorisierter Korrektur basierendes Framework für die monokulare 3D-Pose-Schätzung mehrerer Personen wird vorgestellt, das eine stabile Optimierung auf Grundlage unvollständiger Anfangsschätzungen ermöglicht. Aufbauend darauf wird eine kontaktgeführte Motion-Capture-Methode eingeführt, die aus Posenmannigfaltigkeiten sampelt und dabei dichte Kontaktkonsistenz mit der Szene durchsetzt. Diese Methoden zeigen, wie auch begrenzte monokulare Informationen durch strukturierte Interaktion mit der Umgebung erweitert werden können. Über die rein menschzentrierte Modellierung hinaus wird im nächsten Abschnitt untersucht, wie menschliche Bewegungen zur Erfassung von Umweltveränderungen genutzt werden können. In dynamischen oder verformbaren Szenen gelten statische Annahmen nicht mehr. Hierzu wird ein gemeinsames Rekonstruktions-Framework entwickelt, das die 3D-Bewegung des Menschen und Umgebungsverformungen aus monokularem Video gleichzeitig schätzt. Der Ansatz erfasst die wechselseitige Beeinflussung: Menschen passen sich an die Umgebung an, und ihre Bewegungen offenbaren deren Formbarkeit und Entwicklung. Auf Optimierung basierend, ermöglicht dieses Verfahren die Modellierung von Umgebungsverformungen durch menschliche Bewegung und eröffnet einen Weg zu hochpräziser Rekonstruktion dynamischer Szenen. Da sich Szenen sowohl räumlich als auch domänenübergreifend weiterentwickeln, müssen monokulare Systeme robust gegenüber Verteilungsverschiebungen bleiben. In diesem Kontext wird ein source-free Testzeit-Domain-Adaptations-Framework für die monokulare Tiefenschätzung vorgeschlagen. Eine selbstüberwachte Optimierungsstrategie wird eingesetzt, um Tiefenvorhersagen während der Inferenz an unbekannte Ziel-Domänen anzupassen – ohne Zugang zu Quell- Daten oder Beschriftungen. Durch die Nutzung geometrischer Konsistenz und photometrischer Hinweise zur Testzeit kann dieser Ansatz effektiv Domänenverschiebungen kompensieren, wie sie häufig in realen Fahrszenarien auftreten. Im Gegensatz zu früheren Methoden, die Offline- Neutraining oder beschriftete Quelldaten erfordern, ist dieser Ansatz plug-and-play-fähig, effizient und verbessert die Generalisierungsfähigkeit in einem vollständig unbeaufsichtigten Setting. Die letzte Phase dieser Arbeit widmet sich der vollständigen Rekonstruktion von Szenen aus einer Einzelansicht. Es werden Methoden zur semantischen 3D-Occupancy-Vorhersage auf Basis monokularer Bilder entwickelt, die eine vorwärtsgerichtete Einzelbildinferenz ohne Bodenwahrheiten oder LiDAR-Supervision ermöglichen. Der Ansatz basiert auf einer NeRF-basierten volumetrischen Rendering-Formulierung, bei der 3D-sematische Vorhersagen mittels differentieller Renderingverluste an 2D-Annotationen angepasst werden. Innerhalb dieses Frameworks wird eine Multi-Task-Interaktionsstrategie gezielt entworfen, um die Synergie zwischen semantischer Supervision und geometrischer Rekonstruktion zu verbessern. Durch die Integration semantischer und geometrischer Schlussfolgerungen in einem einheitlichen Modell ermöglicht die Methode ein umfassendes 3D-Szenenverständnis bei minimalem Supervisionsaufwand. Trotz der ausschließlichen Verwendung von 2D-Supervision gelingt es dem System, aus Einzelbildern bedeutungsvolle volumetrische Strukturen zu rekonstruieren – ein praxisnaher Schritt in Richtung selbstüberwachter monokularer 3D-Rekonstruktion. Insgesamt ergeben die Beiträge dieser Arbeit eine kohärente Entwicklung hin zu robuster, selbstüberwachter 3D-Wahrnehmung aus monokularer visueller Information. Vom Erfassen von Interaktion bis zur Rekonstruktion von Struktur wird ein Framework präsentiert, das Maschinen ermöglicht, die dreidimensionale Welt durch die enge Linse einer einzelnen Kamera zu interpretieren – ohne den Bedarf teurer Sensorik oder aufwendiger Annotation. Dies eröffnet neue Perspektiven für dynamisches Szenenverständnis, menschzentriertes Rechnen und verkörperte künstliche Intelligenz.
Link zu diesem Datensatz:	urn:nbn:de:bsz:291--ds-478456 hdl:20.500.11880/41985 http://dx.doi.org/10.22028/D291-47845
Erstgutachter:	Schiele, Bernt
Tag der mündlichen Prüfung:	8-Mai-2026
Datum des Eintrags:	8-Jun-2026
Fakultät:	MI - Fakultät für Mathematik und Informatik
Fachrichtung:	MI - Informatik
Professur:	MI - Prof. Dr. Bernt Schiele
Sammlung:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Dateien zu diesem Datensatz:

Datei	Beschreibung	Größe	Format
thesis.pdf		38,41 MB	Adobe PDF	Öffnen/Anzeigen

Export: BibTex Statistik anzeigen

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.