Un monde d’images interconnectées

En juillet dernier, les sites spécialisés se faisaient l’écho de la présentation à SIGGRAPH 2006 d’une technologie nouvelle de navigation dans une base de photographies développée par Microsoft Live Labs et baptisée Photosynt. Celle-ci permet d’obtenir un rendu 3D à partir d’une collection de photographies et de l’utiliser pour naviguer dans cette collection. En novembre 2006, une démonstration de cette technique était en ligne et accessible avec Internet Explorer. La démo a été récemment adaptée pour Firefox mais n’est toujours pas accessible sous forme de logiciel. Le développement est toujours en cours.

photosynth.jpg

Mis au point par Noah Snavely et Steven Seitz de l’Université de Washington en collaboration avec Richard Szeliski du Centre de Recherche de Microsoft Live Lab, Photosynt est la convergence sous les auspices du Live Lab de Microsoft de deux projets externes de technologie de navigation photographique. Celui de la société Seadragon, intégrée ensuite dans Live Lab, procure un zoom continu dans une collection de photographies et un mode de streaming entre clients et serveurs. Celui d’un groupe de l’Université de Washington, Photo Tourism, cherche les similarités entre les images , trouve des transitions logiques entre elles et construit un modèle 3D permettant de les intégrer. L’intérêt de l’algorithme est qu’il ne demande pas de connaître tous les paramètres géométriques de chaque prise de vue. Il reconstruit les positions relatives des appareils photos par comparaison des images présentant des similarités, suivi d’un calcul de triangulation s’appuyant sur les indications de focale dans les données EXIF des photographies. Si le modèle doit être localisé exactement, il est possible de géoréférencer les localisations calculées des caméras en fonction d’une carte ou d’une image, ou d’introduire, avant le traitement dans la collection, des photographies localisées par GPS. Il est possible aussi d’appuyer le modèle 3D extrait des photographies sur un Modèle Numérique de Terrain existant (voir le détail de la méthode ici). Visiblement la génération d’un site demande une forte puissance de calcul (de quelques heures pour le traitement de 120 photos à deux semaines pour les 2 635 photos de Notre-Dame).

bbc.jpg

4 collections ont été mises en ligne sur le site du Live Lab de Microsoft : l’intérieur du studio de l’artiste Gary Faigin, la Place Saint-Marc à Venise, les lacs Grassi dans les Rocheuses au Canada et la Place Saint-Pierre à Rome. Le résultat est époustouflant. On navigue dans l’espace de la Place Saint-Marc reconstruit automatiquement à partir de dizaines de photographies. On peut aussi combiner des photos d’ensemble et de détails, les visualiser en continuité et avoir l’impression de zoomer à l’infini. L’organisation des photographies par similitude des objets représentés permet d’agrandir un détail invisible d’un paysage ou une face cachée d’un bâtiment dans une photo grâce au contenu d’une autre. Le rendu hybride, à la fois réaliste par la photo et impressionniste par la reconstruction fantômatique et pointilliste des volumes s’avère très poétique. Il existe deux modes principaux de visualisation de la base de données d’images : 3D View et Similarity View. Avec la première on navigue dans les images en étant guidé par le modèle 3D de la place. La seconde permet de disposer visuellement les photographies en fonction de la similarité des éléments architecturaux qu’elles contiennent. A l’usage, il me semble que la navigation dans l’espace d’images du site du lac de montagne est plus laborieuse que dans les sites urbains, aux volumes très structurés et aux repères plus nets. La recherche des photos de grimpeurs, détails perdus dans l’ensemble des photos, rappellent certaines séquences du film Blow-up d’Antonioni.

photosynt2.jpg

Les concepteurs commentent leur procédé dans plusieurs vidéos. L’ingénieur de Microsoft parle à propos de Photosynt de l’émergence d’un nouveau média, ce qui est discutable. Les images Quicktime sont-elles devenues un nouveau média ? Ne sont-elles pas plutôt une prolongation interactive de la photographie ? En revanche, il pointe avec justesse que le système crée une connexion inédite entre univers réel et univers virtuel. En effet dans la vue 3D comme dans la vue par similarité, c’est l’organisation du monde réel qui structure l’exploration du monde virtuel de la base de données photographiques. Dans la première, c’est la topographie qui commande, dans la seconde c’est le contenu de l’espace photographié. Ce retour du réel dans le virtuel est une expérience très intriguante.

L’intérêt principal du système est que le classement par similarité et le modèle 3D sont construits automatiquement à partir du corpus de photographies numériques. Les concepteurs proposent comme applications directes de leur technologie une nouvelle interface de visualisation pour les collections de photographies en ligne et un moyen de développer un tourisme photographique. Si le projet débouche sur des outils réellement utilisables, on se prend à penser que cette technologie permettrait de reconstruire le monde en 3D à partir des millions de photographies déposées sur un site comme flickr par exemple.

PS. : Merci à Simon de m’avoir signalé l’existence de Photosynt.

Une réflexion sur “Un monde d’images interconnectées

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s